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数 和 数组 
标量 (整数 或 实数 ) 
向 量 
和 矩阵 
张 量 
n ÍT n 列 的 单位 矩阵 
维度 缠 含 于 上 下 文 的 单位 矩阵 





标准 基 向 量 [0,...,0,1,0,...,0]， 其 中 索引 i 处 值 
为 1 


对 角 方 阵 ， 其 中 对 角 元 素 由 a 给 定 
标量 随机 变量 
向 量 随机 变量 
和 矩阵 随机 变量 
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远 在 古 和 希腊 时 期 ， 发 明 家 就 梦想 着 创造 能 自主 思考 的 机 需 。 神 话 人 物 皮 格 马 利 
全 (Pygmalion) 、 代 达 罗 斯 (Daedalus) 和 赫 淮 斯 托 斯 (Hephaestus) 可 以 被 看 作 传说 
中 的 发 明 家 ， 而 加 拉 带 亚 (Galatea)、 塔 洛斯 (Talos) 和 潘多拉 (Pandora) 则 可 以 被 
视 为 人 造 生 命 (Ovid and Martin, 2004; Sparkes, 1996; Tandy, 1997). 

当 人 类 第 一 次 构思 可 编程 计算 机 时 ， 就 已 经 在 思考 计算 机 能 否 变 得 智能 ( 尽管 
这 距 造 出 第 一 台 计 算 机 还 有 一 百 多 年 (Lovelace, 1842)。 如 今 ， 人 工 智 能 (artificial 
intelligence, AI) 已 经 成 为 一 个 具有 众多 实际 应 用 和 活跃 研究 课题 的 领域 , 并 且 正 在 
鞍 勃 发 展 。 我 们 期 望 通过 智能 软件 自动 地 处 理 常 规 劳 动 、 理 解 语音 或 图 像 、 帮 助 医 
学 诊断 和 支持 基础 科学 研究 。 

在 人 工 智 能 的 早期 ， 那些 对 人 类 智力 来 说 非常 困难 、 但 对 计算 机 来 说 相对 简单 
的 问题 得 到 迅速 解决 ， 比 如 ， 那 些 可 以 通过 一 系列 形式 化 的 数学 规则 来 描述 的 问题 。 
人 工 智能 的 真正 挑战 在 于 解决 那些 对 人 来 说 很 容易 执行 、 但 很 难 形 式 化 描述 的 任务 ， 
如 识别 人 们 所 说 的 话 或 图 像 中 的 脸 。 对 于 这 些 问题 ， 我 们 人 类 往往 可 以 凭借 直觉 轻 
易 地 解决 。 

针对 这 些 比较 直观 的 问题 ， 本 书 讨论 一 种 解决 方案 。 该 方案 可 以 让 计算 机 从 经 
验 中 学 习 ， 并 根据 层次 化 的 概念 体系 来 理解 世界 ， 而 每 个 概念 则 通过 与 某 些 相 对 简 
单 的 概念 之 间 的 关系 来 定义 。 让 计算 机 从 经 验 获 取 知 识 ， 可 以 避免 由 人 类 来 给 计算 
机 形式 化 地 指定 它 需 要 的 所 有 知识 。 层 次 化 的 概念 让 计算 机 构建 较 简 单 的 概念 来 学 
习 复 杂 概念 。 如 果 绘 制 出 这 些 概念 如 何 建立 在 彼此 之 上 的 图 ， 我 们 将 得 到 一 张 “ 深 ” 
(层次 很 多 ) 的 图 。 基 于 这 个 原因 ,我 们 称 这 种 方法 为 AL REF (deep learning )。 

AI 许多 早期 的 成 功 发 生 在 相对 朴素 且 形 式 化 的 环境 中 ， 而 且 不 要 求 计算 机 具 
备 很 多 关于 世界 的 知识 。 例 如 ，IBM 的 深蓝 ( Deep Blue) 国际 象棋 系统 在 1997 年 
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击败 了 世界 冠军 Garry Kasparov(Hsu, 2002)。 显 然 国际 象棋 是 一 个 非常 简单 的 领域 ， 
因为 它 仅 含有 64 个 位 置 并 只 能 以 严格 限制 的 方式 移动 32 个 棋子 。 设 计 一 种 成 功 的 
国际 象棋 策略 是 巨大 的 成 就 ， 但 向 计算 机 描述 棋子 及 其 允许 的 走 法 并 不 是 挑战 的 困 
难 所 在 。 国 际 象棋 完全 可 以 由 一 个 非常 简短 的 、 完 全 形式 化 的 规则 列表 来 描述 ， 并 
可 以 容易 地 由 程序 员 事 先 准 备 好 。 

讽刺 的 是 ， 抽 象 和 形式 化 的 任务 对 人 类 而 言 是 最 困难 的 脑力 任务 之 一 ,但 对 计 
算 机 而 言 却 属于 最 容易 的 。 计 算 机 早 就 能 够 打败 人 类 最 好 的 象棋 选手 ， 但 直到 最 近 
计算 机 才 在 识别 对 象 或 语音 任务 中 达到 人 类 平均 水 平 。 一 个 人 的 日 常生 活 需 要 关于 
世界 的 巨 量 知识 。 很 多 这 方面 的 知识 是 主观 的 、 直 观 的 ， 因 此 很 难 通过 形式 化 的 方 
式 表 达 清 楚 。 计 算 机 需要 获取 同样 的 知识 才能 表现 出 智能 。 人 工 智能 的 一 个 关键 挑 
战 就 是 如 何 将 这 些 非 形式 化 的 知识 传达 给 计算 机 。 

一 些 人 工 智 能 项 目 力求 将 关于 世界 的 知识 用 形式 化 的 语言 进行 便 编码 (hard- 
code)。 计 算 机 可 以 使 用 逻辑 推理 规则 来 自动 地 理解 这 些 形 式 化 语言 中 的 申明 。 这 就 
是 众所周知 的 人 工 智能 的 AREE (knowledge base ) 方法 。 然 而 ;这些 项 目 最 终 都 没 
有 取得 重大 的 成 功 。 其 中 最 著名 的 项 目 是 Cyc (Lenat and Guha, 1989)。Cyc 包括 一 
个 推断 引 苟 和 一 个 使 用 CycL 语言 描述 的 声明 数据 库 。 这 些 声 明 是 由 人 类 监督 者 输 
入 的 。 这 是 一 个 笨拙 的 过 程 。 人 们 设法 设计 出 足够 复杂 的 形式 化 规则 来 精确 地 描述 世 
界 。 例 如 ，Cyc 不 能 理解 一 个 关于 名 为 Fred 的 人 在 早上 剃 须 的 故事 (Linde, 1992). 
它 的 推理 引擎 检测 到 故事 中 的 不 一 致 性 : 它 知 道人 没有 电气 零件 ,但 由 于 Fred 正 拿 
着 一 个 电动 剃 须 刀 ， 它 认为 实体 “正在 剃 须 的 Fred” (“FredWhileShaving”) 含有 电 
气 部 件 。 因 此 它 产 生 了 这 样 的 疑问 Fred 在 刮 胡子 的 时 候 是 否 仍然 是 一 个 人 。 

依 徘 硬 编码 的 知识 体系 面 对 的 困难 表明 ，AI 系统 需要 具备 自己 获取 知识 的 能 
即 从 原始 数据 中 提取 模式 的 能 力 。 这 种 能 力 被 称 为 机 器 学 习 (machine learning )。 
引入 机 融 学 习 使 计算 机 能 够 解决 涉及 现实 世界 知识 的 问题 ， 并 能 作出 看 似 主观 的 决 
策 。 比 如 , 一 个 被 称 为 逻辑 回归 (logistic regression ) 的 简单 机 器 学 习 算 法 可 以 决定 
是 否 建议 剖腹 产 (Mor-Yosef et al., 1990)。 而 同样 是 简单 机 器 学 习 算 法 的 朴素 贝 叶 
斯 (naive Bayes ) 则 可 以 区 分 垃圾 电子 邮件 和 合法 电子 邮件 。 

这 些 简 单 的 机 需 学 习 算 法 的 性 能 在 很 大 程度 上 依赖 于 给 定数 据 的 表示 ( repre- 
sentation ),。 例如 ， 当 催 辑 回归 被 用 于 判断 产妇 是 否 适合 剖腹 产 时 ，AI 系统 不 会 直接 
伶 查 患 者 。 相 反 ， 医 生 需 要 告诉 系统 几 条 相关 的 信息 ， 诸 如 是 否 存在 子宫 疤痕 。 表 
示 患 者 的 每 条 信息 被 称 为 一 个 特征 。 逻 辑 回归 学 习 病 人 的 这 些 特征 如 何 与 各 种 结 
相关 联 。 然 而 ， 它 丝毫 不 能 影响 该 特征 定义 的 方式 。 如 果 将 病人 的 MRI 扫描 作为 逻 
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辑 回归 的 输入 ， 而 不 是 医生 正式 的 报告 ， 它 将 无 法 作出 有 用 的 预测 。MRI 扫描 的 单 
一 像素 与 分 娩 过 程 中 并 发 证 之 间 的 相关 性 微乎其微 。 

在 整个 计算 机 科学 乃至 日 常生 活 中 ， 对 表示 的 依赖 都 是 一 个 普遍 现象 。 在 计算 
机 科学 中 ， 如 果 数 据 集合 被 精巧 地 结构 化 并 被 智能 地 索引 ， 那 么 诸如 搜索 之 类 的 操 
作 的 处 理 速度 就 可 以 成 指数 级 地 加 快 。 人 们 可 以 很 容易 地 在 阿拉 伯 数 字 的 表示 下 进 
行 算 术 运 算 ,， 但 在 罗马 数字 的 表示 下 运算 会 比较 耗 时 。 因 此 ， 毫 不 奇怪 ， 表 示 的 选择 
会 对 机 器 学 习 算法 的 性 能 产生 巨大 的 影响 。 图 1.1 展示 了 一 个 简单 的 可 视 化 例子 。 


Cartesian coordinates Polar coordinates 














图 1.1: 不 同 表 示 的 例子 : 假设 我 们 想 在 散 点 图 中 画 一 条 线 来 分 隔 两 类 数据 。 在 左 图 ,我们 使 用 笛 
卡尔 坐标 表示 数据 ， 这 个 任务 是 不 可 能 的 。 右 图 中 ,我 们 用 极 坐标 表示 数据 ， 可 以 用 垂直 线 简单 地 
解决 这 个 任务 。( 与 David Warde-Farley 合作 画 出 此 图 。 



























































许多 人 工 智能 任务 都 可 以 通过 以 下 方式 解决 ， 先 提取 一 个 合适 的 特征 集 ， 然 后 
将 这 些 特征 提供 给 简单 的 机 器 学 习 算法 。 例 如 ， 对 于 通过 声音 鉴别 说 话 者 的 任务 来 
说 ,一 个 有 用 的 特征 是 对 其 声 道 大 小 的 估计 。 这 个 特征 为 判断 说 话 者 是 男性 、 女 性 
还 是 儿童 提供 了 有 力 线索 。 

然而 ， 对 于 许多 任务 来 说 ,我 们 很 难 知道 应 该 提取 哪些 特征 。 例 如 ， 假 设 我 们 想 
编写 一 个 程序 来 检测 照片 中 的 车 。 我 们 知道 ， 汽 车 有 轮子 ， 所 以 我 们 可 能 会 想 用 车 
轮 的 存在 与 否 作为 特征 。 不 幸 的 是 ， 我 们 难以 准确 地 根据 像素 值 来 描述 车 轮 看 上 去 
像 什么 。 虽 然 车 轮 具有 简单 的 几何 形状 ， 但 它 的 图 像 可 能 会 因 场景 而 异 ， 如 落 在 车 
轮 上 的 阴影 、 太 阳 照 亮 的 车 轮 的 金属 零件 、 汽 车 的 挡 泥 板 或 者 遮挡 的 车 轮 一 部 分 的 
前 景物 体 等 等 。 

解决 这 个 问题 的 途径 之 一 是 使 用 机 器 学 习 来 发 气 表 示 本 身 ， 而 不 仅仅 把 表示 了 映 
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射 到 输出 。 这 种 方法 我 们 称 之 为 表示 学 习 (representation learning )。 学 习 到 的 表 
示 往 往 比 手 动 设计 的 表示 表现 得 更 好 。 并 且 它 们 只 需 最 少 的 人 工 干 预 ， 就 能 让 AI 系 
统 迅速 适 应 新 的 任务 。 表 示 学 习 算 法 只 需 几 分 钟 就 可 以 为 简单 的 任务 发 现 一 个 很 好 
的 特征 集 ， 对 于 复杂 任务 则 需要 几 小 时 到 几 个 月 。 手 动 为 一 个 复杂 的 任务 设计 特征 
需要 耗费 大 量 的 人 工时 间 和 精力 ; 其 至 需要 花费 整个 社 群 研究 人 员 几 十 年 的 时 间 。 

表示 学 习 算 法 的 典型 例子 是 自 编码 器 ( autoencoder )。 自 编码 右 由 一 个 编码 器 
(encoder ) 函数 和 一 个 解码 器 ( decoder) 函数 组 合 而 成 。 编 码 器 函数 将 输入 数据 转 
换 为 一 种 不 同 的 表示 ， 而 解码 器 函数 则 将 这 个 新 的 表示 转换 到 原来 的 形式 。 我 们 期 
望 当 输入 数据 经 过 编码 器 和 解码 器 之 后 尽 可 能 多 地 保留 信息 ， 同 时 希望 新 的 表示 有 
各 种 好 的 特性 ， 这 也 是 自 编 码 需 的 训练 目标 。 为 了 实现 不 同 的 特性 ， 我 们 可 以 设计 
不 同形 式 的 自 编 码 器 。 

当 设 计 特 征 或 设计 用 于 学 习 特 征 的 算法 时 ， 我 们 的 目标 通常 是 分 离 出 能 解释 观 
察 数据 的 变 差 因素 (factors of variation )。 在 此 背景 下 , “因素 ”这 个 词 仅 指 代 影 响 
的 不 同 来 源 ; 因素 通常 不 是 乘 性 组 合 。 这 些 因素 通常 是 不 能 被 直接 观察 到 的 量 。 相 
B, 它们 可 能 是 现实 世界 中 观察 不 到 的 物体 或 者 不 可 观测 的 力 ， 但 会 影响 可 观测 的 
量 。 为 了 对 观察 到 的 数据 提供 有 用 的 简化 解释 或 推断 其 原因 ， 它 们 还 可 能 以 概念 的 
形式 存在 于 人 类 的 思维 中 。 它 们 可 以 被 看 作 数据 的 概念 或 者 抽象 ， 帮 助 我 们 了 解 这 
些 数据 的 丰富 多 样 性 。 当 分 析 语 音 记 录 时 ,， 变 差 因素 包括 说 话 考 的 年 龄 、 性 别 、 他 们 
的 口音 和 他 们 正在 说 的 词语 。 当 分 析 汽 车 的 图 像 时 ， 变 差 因 素 包 括 汽车 的 位 置 、 它 
的 颜色 、 太 阳 的 角度 和 亮度 。 

在 许多 现实 的 人 工 智能 应 用 中 ， 困 难 主 要 源 于 多 个 变 差 因素 同时 影响 着 我 们 能 
够 观察 到 的 每 一 个 数据 。 比 如 ， 在 一 张 包含 红色 汽车 的 图 片 中 ， 其 单个 像素 在 夜间 
可 能 会 非常 接近 黑色 。 汽 车 轮廓 的 形状 取决 于 视角 。 大 多 数 应 用 需要 我 们 理 清 变 差 
因素 并 和 忽略 我 们 不 关心 的 因素 。 

显然 ,从 原始 数据 中 提取 如 此 高 层次 、 抽 象 的 特征 是 非常 困难 的 。 许 多 诸如 说 话 
口音 这 样 的 变 差 因素 ， 只 能 通过 对 数据 进行 复杂 的 、 接 近 人 类 水 平 的 理解 来 辨识 。 这 
几乎 与 获得 原 问 题 的 表示 一 样 困难 ， 因 此 ， 乍 一 看 ， 表 示 学 习 似 乎 并 不 能 帮助 我 们 。 

REFI (deep learning ) 通过 其 他 较 简 单 的 表示 来 表达 复杂 表示 ， 解 决 了 表 
示 学 习 中 的 核心 问题 。 

深度 学 习 让 计算 机 通过 较 简 单 概念 构建 复杂 的 概念 。 图 1.2 展示 了 深度 学 习 系 统 
如 何 通 过 组 合 较 简单 的 概念 (例如 转角 和 轮廓 ， 它 们 转 而 由 边线 定义 ) 来 表示 图 像 
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1.2: 深度 学 习 模 型 的 示意 图 。 计 算 机 难以 理解 原始 感 观 输入 数据 的 含义 ， 如 表示 为 像素 值 集合 
的 图 像 。 将 一 组 像素 映射 到 对 象 标识 的 函数 非常 复杂 。 如 果 直 接 处 理 ， 学 习 或 评估 此 映射 似乎 是 
不 可 能 的 。 座 度 学 习 将 所 需 的 复杂 映射 分 解 为 一 系列 恋 套 的 简单 映射 〈 每 个 由 模型 的 不 同 层 描述 ) 
来 解决 这 一 难题 。 输 入 展示 在 可 见 层 (visible layer )， 这 样 命名 的 原因 是 因为 它 包 含 我 们 能 观察 
到 的 变量 。 然 后 是 一 系列 从 图 像 中 提取 越 来 越 多 抽象 特征 的 隐藏 层 ( hidden layer )。 因 为 它们 的 
值 不 在 数据 中 给 出 ， 所 以 将 这 些 层 称 为 “隐藏 ”; 模型 必须 确定 哪些 概念 有 利于 解释 观察 数据 中 的 
关系 。 这 里 的 图 像 是 每 个 隐藏 单元 表示 的 特征 的 可 视 化 。 给 定 像素 , 第 一 层 可 以 轻易 地 通过 比较 相 
邻 像素 的 亮度 来 识别 边缘 。 有 了 第 一 隐藏 层 描述 的 边缘 ， 第 二 隐藏 层 可 以 容易 地 搜索 可 识别 为 角 
和 扩展 轮廓 的 边 集合 。 给 定 第 二 隐藏 层 中 关于 角 和 轮廓 的 图 像 描述 ， 第 三 隐藏 层 可 以 找到 轮廓 和 
角 的 特定 集合 来 检测 特定 对 象 的 整个 部 分 。 最 后 ， 根 据 图 像 描述 中 包含 的 对 象 部 分 ， 可 以 识别 图 
像 中 存在 的 对 象 。 经 Zeiler and Fergus (2014) 许可 转载 此 图 。 


















































中 人 的 概念 。 深 度 学 习 模 型 的 典型 例子 是 前 馈 深度 网 络 或 多 层 感知 机 (multilayer 
perceptron, MLP )。 多 层 感知 机 仅仅 是 一 个 将 一 组 输入 值 映射 到 输出 值 的 数学 函数 。 
该 函数 由 许多 较 简 单 的 函数 复合 而 成 。 我 们 可 以 认为 不 同 数学 函数 的 每 一 次 应 用 都 
为 输入 提供 了 新 的 表示 。 

学 习 数 据 的 正确 表示 的 想法 是 解释 深度 学 习 的 一 个 视角 。 另 一 个 视角 是 深度 促 
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6 第 一 草 We 
使 计算 机 学 习 一 个 多 步骤 的 计算 机 程序 。 每 一 层 表 示 都 可 以 被 认为 是 并 行 执行 男 一 
组 指令 之 后 计算 机 的 存储 器 状态 。 更 深 的 网 络 可 以 按 顺序 执行 更 多 的 指令 。 顺 序 指 
令 提供 了 极 大 的 能 力 ， 因 为 后 面 的 指令 可 以 参考 早期 指令 的 结果 。 从 这 个 角度 上 看 ， 
在 某 层 激活 函数 里 ， 并 非 所 有 信息 都 蕴涵 着 解释 输入 的 变 差 因素 。 表 示 还 存储 着 状 
态 信 息 ， 用 于 帮助 程序 理解 输入 。 这 里 的 状态 信息 类 似 于 传统 计算 机 程序 中 的 计数 
器 或 指针 。 它 与 具体 的 输入 内 容 无 关 ， 但 有 助 于 模型 组 织 其 处 理 过 程 。 

目前 主要 有 两 种 度量 模型 深度 的 方式 。 第 一 种 方式 是 基于 评估 架构 所 需 执 行 的 
顺序 指令 的 数目 。 假 设 我 们 将 模型 表示 为 给 定 输入 后 ， 计 算 对 应 输出 的 流程 图 ， 则 
可 以 将 这 张 流程 图 中 的 最 长 路 径 视 为 模型 的 深度 。 正 如 两 个 使 用 不 同 语言 编写 的 等 
价 程序 将 具有 不 同 的 长 度 ; 相同 的 函数 可 以 被 绘制 为 具有 不 同 深度 的 流程 图 ， 其 深 
度 取决 于 我 们 可 以 用 来 作为 一 个 步骤 的 函数 。 图 1.3 说 明了 语言 的 选择 如 何 给 相同 的 
架构 两 个 不 同 的 衡量 。 
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图 1.3: 将 输入 映射 到 输出 的 计算 图 表 的 示意 图 ， 其 中 每 个 节点 执行 一 个 操作 。 深 度 是 从 输入 到 输 
出 的 最 长 路 径 的 长 度 , 但 这 取决 于 可 能 的 计算 步 又 的 定义 。 这 些 图 中 所 示 的 计算 是 逻辑 回归 模型 的 
输出 ，o(w”z)， 其 中 o 是 logistic sigmoid 函数 。 如 果 我 们 使 用 加 法 、 乘 法 和 logistic sigmoid 作 
为 我 们 计算 机 语言 的 元 素 ， 那 么 这 个 模型 深度 为 三 。 如 果 我 们 将 逻辑 回归 视 为 元 素 本 身 ， 那 么 这 
个 模型 深度 为 一 。 




















另 一 种 是 在 深度 概率 模型 中 使 用 的 方法 ， 它 不 是 将 计算 图 的 深度 视 为 模型 深度 ， 
而 是 将 描述 概念 彼此 如 何 关联 的 图 的 深度 视 为 模型 深度 。 在 这 种 情况 下 ， 计 算 每 个 
概念 表示 的 计算 流程 图 的 深度 可 能 比 概念 本 身 的 图 更 深 。 这 是 因为 系统 对 较 简单 概 
念 的 理解 在 给 出 更 复杂 概念 的 信息 后 可 以 进一步 精细 化 。 例 如 ， 一 个 AI 系统 观察 其 
中 一 只 眼睛 在 阴影 中 的 脸 部 图 像 时 ， 它 最 初 可 能 只 看 到 一 只 眼睛 。 但 当 检测 到 脸 部 
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的 存在 后 ， 系 统 可 以 推断 第 二 只 眼睛 也 可 能 是 存在 的 。 在 这 种 情况 下 ， 概 念 的 图 仅 
包括 两 层 (关于 眼睛 的 层 和 关于 脸 的 层 )， 但 如 果 我 们 细 化 每 个 概念 的 估计 将 需要 额 
外 的 n 次 计算 ， 即 计算 的 图 将 包含 2n 层 。 

由 于 并 不 总 是 清楚 计算 图 的 深度 或 概率 模型 图 的 深度 哪 一 个 是 最 有 意义 的 ， 并 
且 由 于 不 同 的 人 选择 不 同 的 最 小 元 素 集 来 构建 相应 的 图 ， 因 此 就 像 计算 机 程序 的 长 
度 不 存在 单一 的 正确 值 一 样 ， 架 构 的 深度 也 不 存在 单一 的 正确 值 。 另 外 ， 也 不 存在 
模型 多 么 深 才 能 被 修饰 为 “ 深 ” 的 共识 。 但 相 比 传统 机 器 学 习 ， 深 度 学 习 人 研究 的 模型 
涉及 更 多 学 到 功能 或 学 到 概念 的 组 合 ， 这 点 址 庸 置疑 。 

总 之 ， 这 本 书 的 主题 一 一 深度 学 习 是 通 向 人 工 智 能 的 途径 之 一 。 具 体 来 说 ， 它 
是 机 器 学 习 的 一 种 ， 一 种 能 够 使 计算 机 系统 从 经 验 和 数据 中 得 到 提高 的 技术 。 我 们 
坚信 机 器 学 习 可 以 构建 出 在 复杂 实际 环境 下 运行 的 AI 系统 ,并 且 是 唯一 切实 可 行 的 
方法 。 深 度 学 习 是 一 种 特定 类 型 的 机 器 学 习 ， 具 有 强大 的 能 力 和 灵活 性 ， 它 将 大 千 
世界 表示 为 能 套 的 层次 概念 体系 (由 较 简 单 概念 间 的 联系 定义 复杂 概念 、 从 一 般 抽 
象 概括 到 高 级 抽象 表示 )。 图 1.4 说 明了 这 些 不 同 的 AI 学 科 之 间 的 关系 。 图 1.5 展 示 
了 每 个 学 科 如 何 工 作 的 高 层次 原理 。 
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图 1.4: 维 恩 图 展示 了 深度 学 习 是 一 种 表示 学 习 ， 也 是 一 种 机 器 学 习 ， 可 以 用 于 许多 〈 但 不 是 全 部 ) 
AI 方法 。 维 恩 图 的 每 个 部 分 包括 一 个 AI 技术 的 示例 。 
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图 1.5: 流程 图 展示 了 AI 系统 的 不 同 部 分 如 何在 不 同 的 AI 学 科 中 彼此 相关 。 阴 影 框 表示 能 从 数 
据 中 学 习 的 组 件 。 
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1.1 ”本 书面 向 的 读者 


这 本 书 对 各 类 读者 都 有 一 定 用 处 ， 但 我 们 主要 是 为 两 类 受众 对 象 而 写 的 。 其 中 
一 类 受众 对 象 是 学 习 机 器 学 习 的 大 学 生 〈 本 科 或 研究 生 )， 包 括 那些 已 经 开始 职业 
生涯 的 深度 学 习 和 人 工 智 能 研究 者 。 另 一 类 受众 对 象 是 没有 机 天 学 习 或 统计 背景 但 
希望 能 快速 地 掌握 这 方面 知识 并 在 他 们 的 产品 或 平台 中 使 用 深度 学 习 的 软件 工程 师 。 
深度 学 习 在 许多 软件 领域 都 已 被 证 明 是 有 用 的 ， 包 括 计 算 机 视觉 、 语 音 和 音频 处 理 、 
自然 语言 处 理 、 机 器 人 技术 、 生 物 信息 学 和 化 学 、 电 子 游 戏 、 搜 索引 擎 、 网 络 广告 和 
金融 。 

为 了 最 好 地 服务 各 类 读者 ， 我 们 将 本 书 组 织 为 三 个 部 分 。 第 一 部 分 介绍 基本 的 
数学 工具 和 机 咒 学 习 的 概念 。 第 二 部 分 介绍 最 成 熟 的 深度 学 习 算 法 ,这些 技术 基本 
上 已 经 得 到 解决 。 第 三 部 分 讨论 某 些 具有 展望 性 的 想法 ， 它 们 被 广泛 地 认为 是 深度 
学 习 未 来 的 研究 重点 。 

读者 可 以 随意 跳 过 不 感 兴趣 或 与 自己 背景 不 相关 的 部 分 。 熟 悉 线性 代数 、 概 率 
和 基本 机 带 学 习 概 念 的 读者 可 以 跳 过 第 一 部 分 ， 例 如 ， 当 读者 只 是 想 实现 一 个 能 工 
作 的 系统 则 不 需要 阅读 超出 第 二 部 分 的 内 容 。 为 了 帮助 读者 选择 章节 ， 图 1.6 展示 了 
这 本 书 的 高 层 组 织 结构 的 流程 图 。 

我 们 假设 所 有 读者 都 具备 计算 机 科学 背景 。 也 假设 读者 熟悉 编程 ， 并 且 对 计算 
的 性 能 问题 、 复 杂 性 理论 、 入 门 级 微 积 分 和 一 些 图 论 术语 有 基本 的 了 解 。 
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图 1.6: 本 书 的 高 层 组 织 。 从 一 章 到 另 一 章 的 箭头 表示 前 一 章 是 理解 后 一 曹 的 必 备 内 容 。 





1.2 ”深度 学 习 的 历史 趋势 











通过 历史 背景 了 解 深度 学 习 是 最 简单 的 方式 。 这 里 我 们 仅 指出 深度 学 习 的 几 个 
关键 趋势 ， 而 不 是 提供 其 详细 的 历史 : 





ww ai bbt. com DODDOODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
12 第 一 章 前言 


。 深度 学 习 有 着 悠久 而 丰富 的 历史 ， 但 随 着 许多 不 同 哲学 观点 的 渐渐 消逝 ， 与 之 
对 应 的 名 称 也 渐渐 尘封 。 


。 随 着 可 用 的 训练 数据 量 不 断 增加 ， 深 度 学 习 变 得 更 加 有 用 。 


o 随 着 时 间 的 推移 ， 针 对 深度 学 习 的 计算 机 软 硬 件 基础 设施 都 有 所 改善 ， 深 度 学 
习 模型 的 规模 也 随 之 增长 。 


。 随 着 时 间 的 推移 ， 深 度 学 习 已 经 解决 日 益 复 杂 的 应 用 ， 并 且 精 度 不 断 提 高 。 


1.2.1 神经 网 络 的 众多 名 称 和 命运 变迁 


我 们 期 待 这 本 书 的 许多 读者 都 听 说 过 深度 学 习 这 一 激动 人 心 的 新 技术 ， 并 对 一 
本 书 提 及 一 个 新 兴 领 域 的 “历史 ”而 感到 惊讶 。 事实 上 , 深度 学 习 的 历史 可 以 追溯 到 
20 世纪 40 年 代 。 深 度 学 习 看 似 是 一 个 全 新 的 领域 ， 只 不 过 因为 在 目前 流行 的 前 几 
年 它 是 相对 冷门 的 ， 同 时 也 因为 它 被 赋予 了 许多 不 同 的 名 称 ( 其 中 大 部 分 已 经 不 再 
使 用 )， 最 近 才 成 为 众所周知 的 “深度 学 习 "。 这 个 领域 已 经 更 换 了 很 多 名 称 ， 它 反映 
了 不 同 的 研究 人 员 和 不 同 观点 的 影响 。 


全 面 地 讲述 深度 学 习 的 历史 超出 了 本 书 的 范围 。 然而, 一 些 基 本 的 背景 对 理解 深 
度 学 习 是 有 用 的 。 一般 来 说 ， 目 前 为 止 深度 学 习 已 经 经 历 了 三 次 发 展 浪潮 : 20 世纪 
40 年 代 到 60 年 代 深 度 学 习 的 雏形 出 现在 控制 论 (cybernetics) "P, 20 世纪 80 年 代 
到 90 年 代 深 度 学 习 表 现 为 联结 主义 (connectionism )， 直 到 2006 年 ， 才 真正 以 次 
度 学 习 之 名 复兴 。 图 1.7 给 出 了 定量 的 展示 。 

我 们 今天 知道 的 一 些 最 早 的 学 习 算 法 ， 是 旨 在 模拟 生物 学 习 的 计算 模型 ， 即 大 
脑 怎样 学 习 或 为 什么 能 学 习 的 模型 。 其 结果 是 深度 学 习 以 人 工 神经 网 络 (artificial 
neural network, ANN) 之 名 而 淡 去 。 彼 时 ， 深 度 学 习 模 型 被 认为 是 受 生物 大 脑 (无 
论 人 类 大 脑 或 其 他 动物 的 大 脑 ) 所 启发 而 设计 出 来 的 系统 。 尽 管 有 些 机 器 学 习 的 神 
经 网 络 有 时 被 用 来 理解 大 脑 功能 (Hinton and Shallice, 1991), ， 但 它们 一 般 都 没有 被 
设计 成 生物 功能 的 真实 模型 。 深 度 学 习 的 神经 观点 受 两 个 主要 思想 启发 。 一 个 想法 
是 大 脑 作为 例子 证 明智 能 行为 是 可 能 的 ， 因 此 ， 概 念 上 ， 建 立 智能 的 直接 途径 是 逆 
向 大 脑 背 后 的 计算 原理 ， 并 复制 其 功能 。 另 一 种 看 法 是 ， 理 解 大 脑 和 人 类 智能 背后 
的 原理 也 非常 有 趣 ， 因 此 机 器 学 习 模 型 除了 解决 工程 应 用 的 能 力 ， 如 果 能 让 人 类 对 
这 些 基本 的 科学 问题 有 进一步 的 认识 也 将 会 很 有 用 。 
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图 1.7: 根据 Google 图 书 中 短语 “控制 论 *、“ 联 结 主义 ”或 “神经 网 络 ” 频 率 衡量 的 人 工 神 经 网 
络 研 究 的 历史 浪潮 (图 中 展示 了 三 次 浪潮 的 前 两 次 ,第 三 次 最 近 才 出 现 )。 第 一 次 浪潮 开始 于 
20 世纪 40 年 代 到 20 世纪 60 年 代 的 控制 论 ， 随 着 生物 学 习 理 论 的 发 展 (McCulloch and Pitts, 
1943; Hebb, 1949) 和 第 一 个 模型 的 实现 ( 如 感知 机 (Rosenblatt, 1958) ) ， 能 实现 单个 神经 元 的 
训练 。 第 二 次 浪潮 开始 于 1980-1995 年 间 的 联结 主义 方法 ， 可 以 使 用 反 向 传播 (Rumelhart et al., 
1986a) 训练 具有 一 两 个 隐藏 层 的 神经 网 络 。 当 前 第 三 次 浪潮 ， 也 就 是 深度 学 习 ， 大 约 始 于 2006 年 
(Hinton et al., 2006a; Bengio et al., 2007a; Ranzato et al., 2007a), 并 且 现 在 在 2016 年 以 书 的 形 
式 出 现 。 另 外 两 次 浪潮 类 似 地 出 现在 书 中 的 时 间 比 相应 的 科学 活动 晚 得 多 。 




































































现代 术语 “深度 学 习 ” 超 越 了 目前 机 还 学 习 模 型 的 神经 科学 观点 。 它 诉 诸 于 学 
习 多 层次 组 合 这 一 更 普遍 的 原理 ， 这 一 原理 也 可 以 应 用 于 那些 并 非 受 神经 科学 启发 
的 机 器 学 习 框 架 。 

现代 深度 学 习 的 最 早 前 身 是 从 神经 科学 的 角度 出 发 的 简单 线性 模型 。 这 些 模 型 
被 设计 为 使 用 一 组 n 个 输入 a1, ... tn 并 将 它们 与 一 个 输出 y 相关 联 。 这 些 模型 希 
望 学 习 一 组 权重 wi,.….,w。， 并 计算 它们 的 输出 f(e w) = aw HH nwn 如 
图 1.7 所 示 ， 这 第 一 波 神经 网 络 研 究 浪潮 被 称 为 控制 论 。 

McCulloch-Pitts 神经 元 (McCulloch and Pitts, 1943) 是 脑 功能 的 早期 模型 。 该 
线性 模型 通过 检验 函数 f(x, w) 的 正 负 来 识别 两 种 不 同类 别 的 输入 。 显 然 ， 模 型 的 
权重 需要 正确 设置 后 才能 使 模型 的 输出 对 应 于 期 望 的 类 别 。 这 些 权重 可 以 由 操作 人 
员 设 定 。 在 20 世纪 50 Et, 感知 机 (Rosenblatt, 1956, 1958) 成 为 第 一 个 能 根据 
每 个 类 别 的 输入 样本 来 学 习 权 重 的 模型 。 约 在 同一 时 期 ， 自 适应 线性 单元 (adaptive 
linear element, ADALINE) 简单 地 返回 函数 f(z) 本 里 的 值 来 预测 一 个 实数 (Widrow 
and Hoff, 1960)， 并 且 它 还 可 以 学 习 从 数据 预测 这 些 数 。 
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这 些 简单 的 学 习 算 法 大 大 影响 了 机 器 学 习 的 现代 景象 。 用 于 调节 ADALINE 权 
重 的 训练 算法 是 被 称 为 随机 梯度 下 降 (stochastic gradient descent ) 的 一 种 特例 。 稍 
加 改进 后 的 随机 梯度 下 降 算 法 仍然 是 当今 深度 学 习 的 主要 训练 算法 。 

基于 感知 机 和 ADALINE 中 使 用 的 函数 f (o, w) 的 模型 被 称 为 线性 模型 ( linear 
model )。 尽 管 在 许多 情况 下 ， 这 些 模 型 以 不 同 于 原始 模型 的 方式 进行 训练 ， 但 仍 是 
目前 最 广泛 使 用 的 机 器 学 习 模 型 。 

线性 模型 有 很 多 局 限 性 。 最 著名 的 是 ， 它 们 无 法 学 习 异 或 (XOR ) 函数 ， 即 
f([0, 1], w) = 18 f([1,0],w) — 1, fH f([1, 1], w) = 0 和 f([0,0], w) = 0, 观察 到 线 
性 模型 这 个 缺陷 的 批评 者 对 受 生 物 学 启发 的 学 习 普 遍地 产生 了 抵触 (Minsky and 
Papert, 1969)。 这 导致 了 神经 网 络 热潮 的 第 一 次 大 衰退 。 

现在 ， 神 经 科学 被 视 为 深度 学 习 研 究 的 一 个 重要 灵感 来 源 ， 但 它 已 不 再 是 该 领 
域 的 主要 指导 。 

如 今 神经 科学 在 深度 学 习 人 研究 中 的 作用 被 前 弱 ， 主 要 原因 是 我 们 根本 没有 足够 
的 关于 大 脑 的 信息 来 作为 指导 去 使 用 它 。 要 获得 对 被 大 脑 实际 使 用 算法 的 深刻 理解 ， 
我 们 需要 有 能力 同 时 监测 ( 至少 是 ) 数 千 相 连 神经 元 的 活动 。 我 们 不 能 够 做 到 这 一 
点 ， 所 以 我 们 甚至 连 大 脑 最 简单 、 最 深入 研究 的 部 分 都 还 远 远 没有 理解 (Olshausen 
and Field, 2005)。 

神经 科学 已 经 给 了 我 们 依靠 单一 深度 学 习 算 法 解决 许多 不 同 任务 的 理由 。 神 经 
学 家 们 发 现 , 如果 将 雪 用 的 大 脑 重新 连接 ,使 视觉 信号 传送 到 听觉 区 域 , 它们 可 以 学 
会 用 大 脑 的 听觉 处 理 区 域 去 “看 ”(Von Melchner et al., 2000)。 这 暗示 着 大 多 数 哺乳 
动物 的 大 脑 能 够 使 用 单一 的 算法 就 可 以 解决 其 大 脑 可 以 解决 的 大 部 分 不 同 任务 。 在 
这 个 假设 之 前 ， 机 器 学 习 人 研究 是 比较 分 散 的 ， 研究 人 员 在 不 同 的 社 群 研究 自然 语言 
处 理 、 计 算 机 视觉 、 运 动 规划 和 语音 识别 。 如 今 ， 这 些 应 用 社 群 仍然 是 独立 的 , 但 是 
对 于 深度 学 习 研 究 团 体 来 说 ， 同 时 研究 许多 或 甚至 所 有 这 些 应 用 领域 是 很 常见 的 。 

我 们 能 够 从 神经 科学 得 到 一 些 粗略 的 指南 。 仅 通过 计算 单元 之 间 的 相互 作用 而 
变 得 智能 的 基本 思想 是 受 大 脑 启 发 的 。 新 认 知 机 (Fukushima, 1980) 受 哺乳 动物 视 
觉 系 统 的 结构 启发 ,引入 了 一 个 处 理 图 片 的 强大 模型 架构 ， 它 后 来 成 为 了 现代 卷 积 
网 络 的 基础 (LeCun et al., 1998b) (我 们 将 会 在 第 9.10 节 看 到 )。 目 前 大 多 数 神经 网 
络 是 基于 一 个 称 为 整流 线性 单元 (rectified linear unit) 的 神经 单元 模型 。 原 始 认 
知 机 (Fukushima, 1975) 受 我 们 关于 大 脑 功能 知识 的 启发 ， 引 入 了 一 个 更 复杂 的 版 
本 。 简 化 的 现代 版 通过 吸收 来 自 不 同 观点 的 思想 而 形成 ，Nair and Hinton (2010b) 
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和 Glorot et al. (2011a) 援引 神经 科学 作为 影响 ，Jarrett et al. (2009a) 援引 更 多 面 
向 工程 的 影响 。 虽 然 神经 科学 是 灵感 的 重要 来 源 ， 但 它 不 需要 被 视 为 刚性 指导 。 我 
们 知道 ， 真 实 的 神经 元 计算 着 与 现代 整流 线性 单元 非常 不 同 的 函数 ， 但 更 接近 真实 
神经 网 络 的 系统 并 没有 导致 机 器 学 习性 能 的 提升 。 此 外 ， 虽 然 神 经 科学 已 经 成 功 地 
启发 了 一 些 神经 网 络 架 构 ， 但 我 们 对 用 于 神经 科学 的 生物 学 习 还 没有 足够 多 的 了 解 ， 
因此 也 就 不 能 为 训练 这 些 架 构 用 的 学 习 算 法 提供 太 多 的 借鉴 。 

媒体 报道 经 常 强调 深度 学 习 与 大 脑 的 相似 性 。 的 确 ， 深 度 学 习 研 究 者 比 其 他 机 
器 学 习 领 域 ( 如 核 方 法 或 贝 叶 斯 统计 ) 的 研究 者 更 可 能 地 引用 大 脑 作为 影响 ， 但 是 
大 家 不 应 该 认为 深度 学 习 在 尝试 模拟 大 脑 。 现 代 深 度 学 习 从 许多 领域 获取 灵感 ， 特 
别 是 应 用 数学 的 基本 内 容 如 线性 代数 、 概 率 论 、 信 息 论 和 数值 优化 。 尽 管 一 些 深 度 
学 习 的 研究 人 员 引 用 神经 科学 作为 灵感 的 重要 来 源 ， 然 而 其 他 学 者 完全 不 关心 神经 
科学 。 

值得 注意 的 是 ， 了 解 大脑 是 如 何在 算法 层面 上 工作 的 尝试 确实 存在 且 发 展 良好 。 
这 项 尝试 主要 被 称 为 “计算 神经 科学 ”， 并且 是 独立 于 深度 学 习 的 领域 。 研 究 人 员 在 
两 个 领域 之 间 来 回 研 究 是 很 常见 的 。 深 度 学 习 领 域 主要 关注 如 何 构建 计算 机 系统 ， 
从 而 成 功 解决 需要 智能 才能 解决 的 任务 ， 而 计算 神经 科学 领域 主要 关注 构建 大 脑 如 
何 真实 工作 的 比较 精确 的 模型 。 

在 20 世纪 80 年 代 ， 神 经 网 络 研究 的 第 二 次 浪潮 在 很 大 程度 上 是 伴随 一 个 被 称 
为 联结 主义 ( connectionism ) 或 并 行 分 布 处 理 ( parallel distributed processing) 18] 
流 而 出 现 的 (Rumelhart etal., 1986d; McClelland et al., 1995)。 联 结 主义 是 在 认 知 
科学 的 背景 下 出 现 的 。 认 知 科学 是 理解 思维 的 跨 学 科 途 径 ， 即 它 融 合 多 个 不 同 的 分 
析 层 次 。 在 20 世纪 80 年 代 初 期 ， 大 多 数 认 知 科学 家 研究 符号 推理 模型 。 尽 管 这 很 
流行 ， 但 符号 模型 很 难 解释 大 脑 如 何 真正 使 用 神经 元 实现 推理 功能 。 联 结 主义 者 开 
始 研 究 真 正 基 于 神经 系统 实现 的 认 知 模型 (Touretzky and Minton, 1985)， 其 中 很 
多 复苏 的 想法 可 以 追溯 到 心理 学 家 Donald Hebb 在 20 世纪 40 年 代 的 工作 (Hebb, 
1949)。 

联结 主义 的 中 心思 想 是 ， 当 网 络 将 大 量 简单 的 计算 单元 连接 在 一 起 时 可 以 实现 
智能 行为 。 这 种 见解 同样 适用 于 生物 神经 系统 中 的 神经 元 ， 因 为 它 和 计算 模型 中 隐 





























藏 单元 起 着 类 似 的 作用 。 
在 上 世纪 80 年 代 的 联结 主义 期 间 形成 的 几 个 关键 概念 在 今天 的 深度 学 习 中 仍然 
是 非常 重要 的 。 
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其 中 一 个 概念 是 分 布 式 表示 (distributed representation ) (Hinton et al., 1986)。 
其 思想 是 : 系统 的 每 一 个 输入 都 应 该 由 多 个 特征 表示 ， 并 且 每 一 个 特征 都 应 该 参与 
到 多 个 可 能 输入 的 表示 。 例 如 ,假设 我 们 有 一 个 能 够 识别 红色 、 绿 色 、 或 蓝 色 的 汽 
车 、 卡 车 和 乌 类 的 视觉 系统 ,表示 这 些 输入 的 其 中 一 个 方法 是 将 九 个 可 能 的 组 合 : 红 
卡车 ， 红 汽车 ， 红 鸟 ， 绿 卡车 等 等 使 用 单独 的 神经 元 或 隐藏 单元 激活 。 这 需要 九 个 
不 同 的 神经 元 ， 并 且 每 个 神经 必须 独立 地 学 习 颜 色 和 对 象 身 份 的 概念 。 改 善 这 种 情 
况 的 方法 之 一 是 使 用 分 布 式 表示 ， 即 用 三 个 神经 元 描述 颜色 ， 三 个 神经 元 描述 对 象 
身份 。 这 仅仅 需要 6 个 神经 元 而 不 是 9 个 ， 并 且 描 述 红色 的 神经 元 能 够 从 汽车 、 卡 
车 和 鸟 类 的 图 像 中 学 习 红 色 ， 而 不 仅仅 是 从 一 个 特定 类 别 的 图 像 中 学 习 。 分 布 式 表 
示 的 概念 是 本 书 的 核心 ， 我 们 将 在 第 十 五 章 中 更 加 详细 地 描述 。 

联结 主义 潮流 的 男 一 个 重要 成 就 是 反 向 传播 在 训练 具有 内 部 表示 的 深度 神经 网 
络 中 的 成 功 使 用 以 及 反 向 传播 算法 的 普及 (Rumelhart et al., 1986c; LeCun, 1987)。 
这 个 算法 虽然 曾 点 然 失 色 不 再 流行 ， 但 截至 写 书 之 时 ， 它 仍 是 训练 深度 模型 的 主导 
方法 。 

在 20 世纪 90 ER, 研究 人 员 在 使 用 神经 网 络 进行 序列 建 模 的 方面 取得 了 重 
要 进展 。Hochreiter (1991b) 和 Bengio et al. (1994a) 指出 了 对 长 序列 进行 建 模 的 一 
些 根本 性 数学 难题 ， 这 将 在 第 10.7 节 中 描述 。Hochreiter and Schmidhuber (1997) 
引入 长 短期 记忆 (long short-term memory, LSTM ) 网 络 来 解决 这 些 难题 。 如 今 ， 
LSTM 在 许多 序列 建 模 任务 中 广泛 应 用 ， 包 括 Google 的 许多 自然 语言 处 理 任务 。 

神经 网 络 研 究 的 第 二 次 浪潮 一 直 持 续 到 上 世纪 90 年 代 中 期 。 基 于 神经 网 络 和 其 
他 AI 技术 的 创业 公司 开始 寻求 投资 ， 其 做 法 野心 勃勃 但 不 切实 际 。 当 AI 研究 不 能 实 
现 这 些 不 合理 的 期 望 时 ， 投 资 者 感到 失望 。 同 时 ， 机 器 学 习 的 其 他 领域 取得 了 进步 。 
比如 ， 核 方法 (Boser et al., 1992; Cortes and Vapnik, 1995; Schólkopf et al., 1999) 
和 图 模型 (Jordan, 1998) 都 在 很 多 重要 任务 上 实现 了 很 好 的 效果 。 这 两 个 因素 导致 
了 神经 网 络 热潮 的 第 二 次 衰退 ， 并 一 直 持 续 到 2007 年 。 

在 此 期 间 , 神经 网 络 继续 在 某 些 任务 上 获得 令 人 印象 深刻 的 表现 (LeCun 
et al., 1998b; Bengio et al., 2001a)。 加 拿 大 高 级 研究 所 (CIFAR ) 通过 其 神经 计 
算 和 自 适应 感知 (NCAP ) 研究 计划 帮助 维持 神经 网 络 研究 。 该 计划 联合 了 分 别 
由 Geoffrey Hinton, Yoshua Bengio 和 Yann LeCun 领导 的 多 伦 多 大 学 、 蒙 特 利 尔 大 
学 和 纽约 大 学 的 机 器 学 习 人 研究 小 组 。 这 个 多 学 科 的 CIFAR NCAP 研究 计划 还 时 括 
了 神经 科学 家 、 人 类 和 计算 机 视觉 专家 。 
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在 那个 时 候 ， 人 们 普遍 认为 深度 网 络 是 难以 训练 的 。 现 在 我 们 知道 ，20 世纪 80 
年 代 就 存在 的 算法 能 工作 得 非常 好 ， 但 是 直到 在 2006 年 前 后 都 没有 体现 出 来 。 这 可 
能 仅仅 由 于 其 计算 代价 太 高 ， 而 以 当时 可 用 的 硬件 难以 进行 足够 的 实验 。 

神经 网 络 研 究 的 第 三 次 浪潮 始 于 2006 年 的 突破 。Geoffrey Hinton 表明 名 为 深 
度 信念 网 络 的 神经 网 络 可 以 使 用 一 种 称 为 贪 焚 逐 层 预 训练 的 策略 来 有 效 地 训练 
(Hinton et al., 2006a) ， 我 们 将 在 第 15.1 节 中 更 详细 地 描述 。 其 他 CIFAR 附属 研究 
小 组 很 快 表明 ， 同 样 的 策略 可 以 被 用 来 训练 许多 其 他 类 型 的 深度 网 络 (Bengio and 
LeCun, 2007a; Ranzato et al., 2007b)， 并 能 系统 地 帮助 提高 在 测试 样 例 上 的 泛 化 能 
力 。 神 经 网 络 研 究 的 这 一 次 浪潮 普及 了 “深度 学 习 ” 这 一 术语 的 使 用 ， 强 调研 究 者 
现在 有 能 力 训练 以 前 不 可 能 训练 的 比较 深 的 神经 网 络 ， 并 着 力 于 深度 的 理论 重要 
性 上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; 
Montufar et ol.,，2014)。 此 时 ， 深 度 神经 网 络 已 经 优 于 与 之 竞争 的 基于 其 他 机 器 学 
习 技 术 以 及 手工 设计 功能 的 AI 系统 。 在 写 这 本 书 的 时 候 ， 神 经 网 络 的 第 三 次 发 展 浪 
潮 仍 在 继续 ， 尽 管 深度 学 习 的 研究 重点 在 这 一 段 时 间 内 发 生 了 巨大 变化 。 第 三 次 浪 
潮 已 开始 着 眼 于 新 的 无 监督 学 习 技 术 和 次 度 模型 在 小 数据 集 的 谤 化 能 力 ， 但 目前 更 
多 的 兴趣 点 仍 是 比较 传统 的 监督 学 习 算 法 和 深度 模型 充分 利用 大 型 标注 数据 集 的 能 
力 。 














1.2.2 与日俱增 的 数据 量 


人 们 可 能 想 问 ， 既 然 人 工 神经 网 络 的 第 一 个 实验 在 20 世纪 50 年 代 就 完成 了 ， 
但 为 什么 深度 学 习 直 到 最 近 才 被 认为 是 关键 技术 。 自 20 世纪 90 FRAIR, REF 
习 就 已 经 成 功用 于 商业 应 用 ,但 通常 被 视 为 是 一 种 只 有 专家 才 可 以 使 用 的 艺术 而 不 
是 一 种 技术 ， 这 种 观点 一 直 持 续 到 最 近 。 确 实 ， 要 从 一 个 深度 学 习 算 法 获得 良好 的 
性 能 需要 一 些 技巧 。 幸 运 的 是 ， 随 着 训练 数据 的 增加 ， 所 需 的 技巧 正在 减少 。 目 前 
在 复杂 的 任务 达到 人 类 水 平 的 学 习 算 法 ,与 20 世纪 80 年 代 努 力 解决 玩具 问题 (toy 
problem) 的 学 习 算 法 几乎 是 一 样 的 ， 尽 管 我 们 使 用 这 些 算 法 训练 的 模型 经 历 了 变革 ， 
即 简化 了 极 深 架构 的 训练 。 最 重要 的 新 进展 是 现在 我 们 有 了 这 些 算法 得 以 成 功 训 练 
所 需 的 资源 。 图 1.8 展示 了 基准 数据 集 的 大 小 如 何 随 着 时 间 的 推移 而 显著 增加 。 这 
种 趋势 是 由 社会 日 益 数字 化 驱动 的 。 由 于 我 们 的 活动 越 来 越 多 发 生 在 计算 机 上 ， 我 
们 做 什么 也 越 来 越 多 地 被 记录 。 由 于 我 们 的 计算 机 越 来 越 多 地 联网 在 一 起 ， 这 些 记 
录 变 得 更 容易 集中 管理 ， 并 更 容易 将 它们 整理 成 适 于 机 器 学 习 应 用 的 数据 集 。 因 为 
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统计 估计 的 主要 负担 (观察 少量 数据 以 在 新 数据 上 泛 化 ) 已 经 减轻 , “大 数据 ”时 代 
使 机 器 学 习 更 加 容易 。 截 至 2016 年 ， 一 个 粗略 的 经 验 法 则 是 ， 监 督 深度 学 习 算法 在 
每 类 给 定 约 5000 个 标注 样本 情况 下 一 般 将 达到 可 以 接受 的 性 能 ， 当 至 少 有 1000 万 
个 标注 样本 的 数据 集 用 于 训练 时 ， 它 将 达到 或 超过 人 类 表现 。 此 外 ， 在 更 小 的 数据 
集 上 获得 成 功 是 一 个 重要 的 研究 领域 ， 为 此 我 们 应 特别 侧重 于 如 何 通过 无 监督 或 半 
监督 学 习 充 分 利用 大 量 的 未 标注 样本 。 


Dataset size (number examples) 





1900 1950 1985 2000 2015 


1.8: 与 日 俱 增 的 数据 量 。20 世纪 初 ， 统 计 学 家 使 用 数 百 或 数 千 的 手动 制作 的 度量 来 研究 数据 集 
(Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936)。20 世纪 50 年 代 到 80 年 代 , 受 生 物 
启发 的 机 器 学 习 开 拓 者 通常 使 用 小 的 合成 数据 集 ， 如 低 分 辩 率 的 字母 位 图 , 设计 为 在 低 计算 成 本 下 
表明 神经 网 络 能 够 学 习 特 定 功能 (Widrow and Hoff, 1960; Rumelhart et al., 1986b)。20 世纪 80 
年 代 和 90 年 代 ， 机 需 学 习 变 得 更 加 统计 ， 并 开始 利用 包含 成 千 上 万 个 样本 的 更 大 数据 集 ， 如 手写 
扫描 数字 的 MNIST 数据 集 ( 如 图 1.9 ) 所 示 (LeCun et al., 1998b)。 在 21 世纪 初 的 第 一 个 十 年 ， 
相同 大 小 更 复杂 的 数据 集 持 续 出 现 ， 如 CIFAR-10 数据 集 (Krizhevsky and Hinton, 2009) 。 在 这 
十 年 结束 和 下 五 年 ， 明 显 更 大 的 数据 集 (包含 数 万 到 数 千 万 的 样 例 ) 完全 改变 了 深度 学 习 的 可 能 
实现 的 事 。 这 些 数据 集 包 括 公 共 Street View House Numbers 数据 集 (Netzer et al., 2011)、 各 种 
版 本 的 ImageNet 数据 集 (Deng et al., 2009, 2010a; Russakovsky et al., 2014a) 以 及 Sports-1M 
数据 集 (Karpathy et aL, 2014)。 在 图 顶部 ， 我 们 看 到 翻译 句子 的 数据 集 通常 远大 于 其 他 数据 集 ， 
如 根据 Canadian Hansard 制作 的 IBM 数据 集 (Brown et al., 1990) 和 WMT 2014 英法 数据 集 
(Schwenk, 2014) 。 
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图 1.9: MNIST 数据 集 的 输入 样 例 。“NIST” 代表 国家 标准 和 技术 研究 所 (National Institute of 
Standards and Technology), 是 最 初 收集 这 些 数据 的 机 构 。“M” 代 表 “ 修 改 的 (Modified)”, 为 更 
容易 地 与 机 器 学 习 算 法 一 起 使 用 ， 数 据 已 经 过 预 处 理 。MNIST 数据 集 包括 手写 数字 的 扫描 和 相关 
标签 〈 描述 每 个 图 像 中 包含 0-9 中 哪个 数字 )。 这 个 简单 的 分 类 问题 是 深度 学 习 研 究 中 最 简单 和 最 
广泛 使 用 的 测试 之 一 。 尽 管 现 代 技 术 很 容易 解决 这 个 问题 ， 它 仍然 很 受 欢迎 。Geoffrey Hinton 将 
其 描述 为 “机 器 学 习 的 果 蝇 *"， 这 意味 着 机 器 学 习 研 究 人 员 可 以 在 受 控 的 实验 室 条 件 下 研究 他 们 的 
算法 ， 就 像 生物 学 家 经 常 研 究 果 蝇 一 样 。 









































1.2.3 与日俱增 的 模型 规模 


20 世纪 80 年 代 ， 神 经 网 络 只 能 取得 相对 较 小 的 成 功 ， 而 现在 神经 网 络 非常 成 
功 的 男 一 个 重要 原因 是 我 们 现在 拥有 的 计算 资源 可 以 运行 更 大 的 模型 。 联 结 主义 的 
主要 见解 之 一 是 ， 当 动物 的 许多 神经 元 一 起 工作 时 会 变 得 聪明 。 单 独 神经 元 或 小 集 
合 的 神经 元 不 是 特别 有 用 。 





ww ai bbt.com DUODOODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 


20 第 一 章 Wi 


Ha 


生物 神经 元 不 是 特别 稠密 地 连接 在 一 起 。 如 图 1.10 所 示 ， 几 十 年 来 ， 我 们 的 机 
顺 学 习 模 型 中 每 个 神经 元 的 连接 数量 已 经 与 哺乳 动物 的 大 脑 在 同一 数量 级 上 。 
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mn 
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图 1.10: 与 日 俱 增 的 每 神经 元 连接 数 。 最 初 ， 人 工 神经 网 络 中 神经 元 之 间 的 连接 数 受 限于 硬件 能 
力 。 而 现在 ， 神 经 元 之 间 的 连接 数 大 多 是 出 于 设计 考虑 。 一 些 人 工 神经 网 络 中 每 个 神经 元 的 连接 
数 与 猫 一 样 多 ， 并 且 对 于 其 他 神经 网 络 来 说 ， 每 个 神经 元 的 连接 与 较 小 哺乳 动物 (如 小 鼠 ) 一 
样 多 是 非常 普遍 的 。 甚 至 人 类 大 脑 每 个 神经 元 的 连接 也 没有 过 高 的 数量 。 生 物 神经 网 络 规模 来 
自 Wikipedia (2015)。 





























自 适应 线性 单元 (Widrow and Hoff, 1960) 
神经 认 知 机 (Fukushima, 1980) 
GPU- 加 速 卷 积 网 络 (Chellapilla et al., 2006) 


深度 玻 尔 效 曼 机 (Salakhutdinov and Hinton, 2009a) 


GPU- 加 速 多 层 感知 机 (Ciresan et al., 2010) 
分 布 式 自 编码 器 (Le et al., 2012) 


1. 

2. 

3. 

4. 

5. 无 监督 卷 积 网 络 (Jarrett et al., 2009b) 
6. 

y^ 

8. Multi-GPU 卷 积 网 络 (Krizhevsky et al., 2012a) 
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COTS HPC 无 监督 卷 积 网 络 (Coates et al., 2013) 


10. GoogLeNet (Szegedy et al., 2014a) 


如 图 1.11 所 示 ， 就 神经 元 的 总 数目 而 言 ， 直 到 最 近 神经 网 络 都 是 惊人 的 小 。 上 自 
从 隐藏 单元 引入 以 来 ， 人工 神经 网 络 的 规模 大 约 每 2.4 年 扩大 一 倍 。 这 种 增长 是 由 
更 大 内 存 、 更 快 的 计算 机 和 更 大 的 可 用 数据 集 驱 动 的 。 更 大 的 网 络 能 够 在 更 复杂 的 
任务 中 实现 更 高 的 精度 。 这 种 趋势 看 起 来 将 持续 数 十 年 。 除 非 有 能 力 迅速 扩展 的 新 
技术 ， 否 则 至 少 要 到 21 世纪 50 年 代 ， 人 工 神经 网 络 将 才能 具备 与 人 脑 相 同 数量 级 
的 神经 元 。 生 物 神经 元 表示 的 功能 可 能 比 目 前 的 人 工 神经 元 所 表示 的 更 复杂 ， 因 此 
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生物 神经 网 络 可 能 比 图 中 描绘 的 甚至 要 更 大 。 


Number of neurons (logarithmic scale) 





1950 1985 2000 2015 2056 


1.11: 与 日 俱 增 的 神经 网 络 规模 。 自 从 引入 隐藏 单元 ， 人 工 神 经 网 络 的 大 小 大 约 每 2.4 年 翻 一 
音 。 生 物 神经 网 络 规模 来 自 Wikipedia (2015). 


1. 感知 机 (Rosenblatt, 1958, 1962) 

2. 自 适应 线性 单元 (Widrow and Hoff, 1960) 
3. 神经 认 知 机 (Fukushima, 1980) 

4. 早期 后 向 传播 网 络 (Rumelhart et al., 1986b) 


5. 于 语音 识别 的 循环 神经 网 络 (Robinson and Fallside, 1991) 























6. 用 于 语音 识别 的 多 层 感知 机 (Bengio et al., 1991) 
7. 均匀 场 sigmoid 信 和 念 网 络 (Saul et al., 1996) 


8. LeNet-5 (LeCun et al., 1998b) 











9. 回声 状态 网 络 (Jaeger and Haas, 2004) 











10. 深度 信念 网 络 (Hinton et al., 2006a) 

11. GPU- 加 速 卷 积 网 络 (Chellapilla et al., 2006) 

12. 深度 玻 尔 兹 曼 机 (Salakhutdinov and Hinton, 2009a) 
13. GPU- 加 速 深度 信念 网 络 (Raina et al., 2009a) 

14. 无 监督 卷 积 网 络 (Jarrett et al., 2009b) 

15. GPU- 加 速 多 层 感知 机 (Ciresan et al., 2010) 





16. OMP-1 网 络 (Coates and Ng, 2011) 

lv. 分 布 式 自 编码 器 (Le et aL, 2012) 

18. Multi-GPU 卷 积 网 络 (Krizhevsky et al., 2012a) 
19. COTS HPC 无 监督 卷 积 网 络 (Coates et aL, 2013) 


20. GoogLeNet (Szegedy et al., 2014a) 


HEAR, AB ZETEC ^P SHS A A RE RED RAIA TE ETT 
是 不 足 为 奇 的 。 即 使 现在 的 网 络 ， 从 计算 系统 角度 来 看 它 可 能 相当 大 的 ， 但 实际 上 
它 比 相对 原始 的 浓 椎 动物 如 青蛙 的 神经 系统 还 要 小 。 
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由 于 更 快 的 CPU、 通用 GPU 的 出 现 (在 第 12.1.2 节 中 讨论 )、 更 快 的 网 络 连 接 
和 更 好 的 分 布 式 计算 的 软件 基础 设施 ， 模 型 规模 随 着 时 间 的 推移 不 断 增 加 是 深度 学 
习 历 史 中 最 重要 的 趋势 之 一 。 人 们 普遍 预计 这 种 趋势 将 很 好 地 持续 到 未 来 。 





1.2.4 与 日 俱 增 的 精度 、 复 杂 度 和 对 现实 世界 的 冲击 


20 世纪 80 年 代 以 来 ， 深 度 学 习 提供 精确 识别 和 预测 的 能 力 一 直 在 提高 。 而 且 ， 
深度 学 习 持 续 成 功 地 被 应 用 于 越 来 越 广泛 的 实际 问题 中 。 

最 早 的 深度 模型 被 用 来 识别 裁剪 紧凑 且 非 常 小 的 图 像 中 的 单个 对 象 (Rumelhart 
et al., 1986d)。 此 后 ， 神 经 网 络 可 以 处 理 的 图 像 尺 寸 逐渐 增加 。 现 代 对 象 识别 网 络 能 
处 理 丰 富 的 高 分 辩 率 照片 ， 并 且 不 需要 在 被 识别 的 对 象 附近 进行 裁剪 (Krizhevsky 
et al., 2012b)。 类 似 地 ， 最 早 的 网 络 只 能 识别 两 种 对 象 (或 在 某 些 情况 下 ， 单 类 对 象 
的 存在 与 否 )， 而 这 些 现代 网 络 通 常 能 够 识别 至 少 1000 个 不 同类 别 的 对 象 。 对 象 识 别 
中 最 大 的 比赛 是 每 年 举行 的 InageNet 大 型 视觉 识别 挑战 (ILSVRC )。 深 度 学 习 迅 
速 崛 起 的 激动 人 心 的 一 幕 是 卷 积 网 络 第 一 次 大 幅 赢得 这 一 挑战 ， 它 将 最 高 水 准 的 前 
5 错误 率 从 26.196 降 到 15.3% (Krizhevsky et al., 2012b)， 这 意味 着 该 卷 积 网 络 针对 
每 个 图 像 的 可 能 类 别 生成 一 个 顺序 列表 ， 除 了 15.3% 的 测试 样本 ， 其 他 测试 样本 的 
正确 类 标 都 出 现在 此 列表 中 的 前 5 项 里 。 此 后 ， 深 度 卷 积 网 络 连续 地 赢得 这 些 比 赛 ， 
截至 写本 书 时 ,深度 学 习 的 最 新 结果 将 这 个 比赛 中 的 前 5 错误 率 降 到 了 3.6%， 如 
图 1.12 所 示 。 

深度 学 习 也 对 语音 识别 产生 了 巨大 影响 。 语 音 识别 在 20 世纪 90 年 代 得 到 提 
高 后 ， 直 到 约 2000 年 都 停滞 不 前 。 深 度 学 习 的 引入 (Dahl et al., 2010; Deng et al., 
2010b; Seide et al., 2011; Hinton et al., 2012a) 使 得 语音 识别 错误 率 陡然 下 降 ， 有 些 
错误 率 甚 至 降低 了 一 半 。 我 们 将 在 第 12.3 节 更 详细 地 探讨 这 个 历史 。 

深度 网 络 在 行人 检测 和 图 像 分 割 中 也 取得 了 引 人 注 目的 成 功 (Sermanet et al., 
2013; Farabet et al., 2013; Couprie et al., 2013)， 并 且 在 交通 标志 分 类 上 取得 了 超越 
人 类 的 表现 (Ciresan et al., 2012). 

在 深度 网 络 的 规模 和 精度 有 所 提高 的 同时 ， 它 们 可 以 解决 的 任务 也 日 益 复 杂 。 
Goodfellow et al. (2014d) 表明 ， 神 经 网 络 可 以 学 习 输 出 描述 图 像 的 整个 字符 序列 ， 
而 不 是 仅仅 识别 单个 对 象 。 此 前 ， 人 们 普遍 认为 ， 这 种 学 习 需 要 对 序列 中 的 单个 元 
素 进行 标注 (Gulcehre and Bengio, 2013)。 循 环 神经 网 络 ， 如 之 前 提 到 的 LSTM 序 
列 模型 ， 现 在 用 于 对 序列 和 其 他 序列 之 间 的 关系 进行 建 模 ， 而 不 是 仅仅 固定 输入 之 
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图 1.12: 日 益 降 低 的 错误 率 。 由 于 深度 网 络 达到 了 在 ImageNet 大 规模 视觉 识别 挑战 中 竞争 所 必 
需 的 规模 ， 它 们 每 年 都 能 赢得 胜利 ， 并 且 产 生 越 来 越 低 的 错误 率 。 数 据 来 源 于 Russakovsky et al. 
(2014b) 和 He et al. (2015). 




















间 的 关系 。 这 种 序列 到 序列 的 学 习 似 乎 引领 着 另 一 个 应 用 的 颠覆 性 发 展 ， 即 机 器 翻 
VÉ (Sutskever et al., 2014; Bahdanau et al., 2015). 

这 种 复杂 性 日 益 增 加 的 趋势 已 将 其 推 向 逻辑 结论 ， 即 神经 图 灵机 (Graves et al., 
2014) 的 引入 ， 它 能 学 习 读 取 存 储 单元 和 向 存储 单元 写 入 任意 内 容 。 这 样 的 神经 网 
络 可 以 从 期 望 行为 的 样本 中 学 习 简 单 的 程序 。 例 如 ， 从 杂乱 和 排 好 序 的 样本 中 学 习 
对 一 系列 数 进行 排序 。 这 种 自我 编程 技术 正 处 于 起 步 阶段 ， 但 原则 上 未 来 可 以 适用 
于 几乎 所 有 的 任务 。 

深度 学 习 的 另 一 个 最 大 的 成 就 是 其 在 强化 学 习 (reinforcement learning ) 领域 
的 扩展 。 在 强化 学 习 中 , 一 个 自主 的 智能 体 必 须 在 没有 人 类 操作 者 指导 的 情况 下 , 通 
过 试 错 来 学 习 执 行 任务 。DeepMind 表明 ， 基 于 深度 学 习 的 强化 学 习 系 统 能 够 学 会 玩 
Atari 视频 游戏 ， 并 在 多 种 任务 中 可 与 人 类 匹敌 (Mnih et aL, 2015)。 深 度 学 习 也 显 
著 改 善 了 机 器 人 强化 学 习 的 性 能 (Finn et al., 2015)。 

许多 深度 学 习 应 用 都 是 高 利润 的 。 现 在 深度 学 习 被 许多 顶级 的 技术 公司 使 用 , 包 
括 Google, Microsoft, Facebook, IBM, Baidu, Apple, Adobe, Netflix, NVIDIA 
fll NEC 等 。 

深度 学 习 的 进步 也 严重 依赖 于 软件 基础 架构 的 进展 。 软件 库 如 Theano (Bergstra 
et al., 2010a; Bastien et al., 2012a) , PyLearn2 (Goodfellow et al., 2013e) , Torch (Col- 
lobert et al., 2011b) , DistBelief (Dean et al., 2012) , Caffe (Jia, 2013), MXNet (Chen 
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et al., 2015) 和 TensorFlow (Abadi et al., 2015) 都 能 支持 重要 的 研究 项 目 或 商业 产 


a 
HHo 





深度 学 习 也 为 其 他 科学 做 出 了 贡献 。 用 于 对 象 识 别 的 现代 卷 积 网 络 为 神经 科 
学 家 们 提供 了 可 以 研究 的 视觉 处 理 模型 (DiCarlo, 2013)。 深 度 学 习 也 为 处 理 海 量 
数据 以 及 在 科学 领域 作出 有 效 的 预测 提供 了 非常 有 用 的 工具 。 它 已 成 功 地 用 于 预 
测 分 子 如 何 相 互 作用 从 而 帮助 制药 公司 设计 新 的 药物 (Dahl et aL, 2014)， 搜 索 亚 
原子 粒子 (Baldi et al., 2014)， 以 及 自动 解析 用 于 构建 人 脑 三 维 图 的 显微镜 图 像 
(Knowles-Barley et al., 2014) 等 。 我 们 期 待 深度 学 习 未 来 能 够 出 现在 越 来 越 多 的 科 
学 领域 中 。 

总 之 ， 深 度 学 习 是 机 器 学 习 的 一 种 方法 。 在 过 去 几 十 年 的 发 展 中 ， 它 大 量 借鉴 
了 我 们 关于 人 脑 、 统 计 学 和 应 用 数学 的 知识 。 近 年 来 ， 得 益 于 更 强大 的 计算 机 、 更 
大 的 数据 集 和 能 够 训练 更 深 网 络 的 技术 ， 深度 学 习 的 普及 性 和 实用 性 都 有 了 极 大 的 
发 展 。 未 来 几 年 充满 了 进一步 提高 深度 学 习 并 将 它 带 到 新 领域 的 挑战 和 机 遇 。 
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本 书 这 一 部 分 将 介绍 理解 深度 学 习 所 需 的 基本 数学 概念 。 我 们 从 应 用 数学 的 一 
般 概念 开始 ， 这 能 使 我 们 定义 许多 变量 的 函数 ， 找 到 这 些 函 数 的 最 高 和 最 低 点 ， 并 
量化 信念 度 。 

接着 ， 我 们 描述 机 天 学 习 的 基本 目标 ， 并 描述 如 何 实现 这 些 目标 。 我 们 需要 指 
定 代 表 某 些 信念 的 模型 、 设 计 衡 量 这 些 信念 与 现实 对 应 程度 的 代价 函数 以 及 使 用 训 
练 算 法 最 小 化 这 个 代价 函数 。 

这 个 基本 框架 是 广泛 多 样 的 机 还 学 习 算 法 的 基础 ， 其 中 也 包括 非 深 度 的 机 带 学 
习 方法 。 在 本 书 的 后 续 部 分 ， 我 们 将 在 这 个 框架 下 开发 深度 学 习 算 法 。 
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线性 代数 作为 数学 的 一 个 分 支 ， 广泛 用 于 科学 和 工程 中 。 然 而 ， 因 为 线性 代数 
主要 是 面向 连续 数学 ， 而 非 离散 数学 ， 所 以 很 多 计算 机 科学 家 很 少 接 触 它 。 掌 握 好 
线性 代数 对 于 理解 和 从 事 机 器 学 习 算 法 相关 工作 是 很 有 必要 的 ， 尤 其 对 于 深度 学 习 
算法 而 言 。 因 此 ， 在 我 们 开始 介绍 深度 学 习 之 前 ， 我 们 集中 探讨 一 些 必 备 的 线性 代 
数 知 识 。 

如 果 你 已 经 很 熟悉 线性 代数 ， 那 么 你 可 以 轻松 地 跳 过 本 章 。 如 果 你 已 经 了 解 
这 些 概念 ， 但 是 需要 一 份 索引 表 来 回顾 一 些 重要 公式 ， 那 么 我 们 推荐 The Matrix 
Cookbook (Petersen and Pedersen, 2006)。 如 果 你 没有 接触 过 线性 代数 ， 那 么 本 章 将 
告诉 你 本 书 所 需 的 线性 代数 知识 ， 不 过 我 们 仍然 非常 建议 你 参考 其 他 专注 于 讲解 线 
性 代数 的 文献 ， 例 如 Shilov (1977)。 最 后 ， 本 章 跳 过 了 很 多 重要 但 是 对 于 理解 深度 
学 习 非 必需 的 线性 代数 知识 。 




















2.1 标量、 向 量 、 和 矩阵 和 张 量 


学 习 线 性 代数 ， 会 涉及 以 下 几 类 数学 概念 : 








。 标量 (scalar ): 一 个 标量 就 是 一 个 单独 的 数 ， 它 不 同 于 线性 代数 中 研究 的 其 他 
大 部 分 对 象 ( 通常 是 多 个 数 的 数组 ) 我 们 用 和 斜体 表示 标量 。 标量 通 常 被 赋予 小 
写 的 变量 名 称 。 当 我 们 介绍 标量 时 ， 会 明确 它们 是 哪 种 类 型 的 数 。 比 如 ， 在 定 
义 实数 标量 时 ,我 们 可 能 会 说 “ 令 se R 表示 一 条 线 的 斜率 ”; 在 定义 自然 数 标 
EHT, FRM AT RES “S ne N 表示 元 素 的 数目 ”。 


e 向 量 (vector): 一 个 向 量 是 一 列 数 。 这 些 数 是 有 序 排列 的 。 通 过 次 序 中 的 索 
引 ， 我 们 可 以 确定 每 个 单独 的 数 。 通 常 我 们 赋予 向 量 粗 体 的 小 写 变量 名 称 ， 比 
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如 z。 癌 量 中 的 元 素 可 以 通过 带 脚 标的 斜体 表示 。 疝 量 z 的 第 一 个 元 素 是 t, 
第 二 个 元 素 是 z2， 等 等 。 我 们 也 会 注 明 存储 在 向 量 中 的 元 素 是 什么 类 型 的 。 如 
果 每 个 元 素 都 属于 R, HERMES n 个 元 素 ， 那 么 该 向 量 属于 实数 集 R 的 
n 次 笛 卡 尔 乘积 构成 的 集合 ， 记 为 及 "。 当 我 们 需要 明确 表示 向 量 中 的 元 素 时 ， 
我 们 会 将 元 素 排列 成 一 个 方 括号 包围 的 纵 列 : 


t= Al (2.1) 


我 们 可 以 把 向 量 看 作 空间 中 的 点 ， 每 个 元 素 是 不 同 坐标 轴 上 的 坐标 。 

有 时 我 们 需要 索引 向 量 中 的 一 些 元 素 。 在 这 种 情况 下 ， 我 们 定义 一 个 包含 这 些 
元 素 索 引 的 集合 ， 然 后 将 该 集合 写 在 脚 标 处 。 比 如 ， 指 定 mi. ma 和 ms. 我 们 定 
MEG 5 = {1,3,6}, AAS zs。 我 们 用 符号 一 表示 集合 的 补 集中 的 索引 。 
比如 xz_1 表示 z PRE cy 外 的 所 有 元 素 ， T-S 表示 z 中 除 n, T3, T6 外 所 有 元 
素 构 成 的 向 量 。 


HERE (matrix ): 矩阵 是 一 个 二 维 数组 ,其 中 的 每 一 个 元 素 被 两 个 索引 而 非 一 个 
所 确定 。 我 们 通常 会 赋予 矩阵 粗 体 的 大 写 变 量 名 称 ， 比 如 A. MRSS RE 
阵 高 度 为 m， 宽 度 为 n, WARMA A eR". 我 们 在 表示 和 矩阵 中 的 元 素 时 ， 
通常 以 不 加 粗 的 斜体 形式 使 用 其 名 称 ， 索 引用 逗号 间隔 。 比 如 ，411 表示 A 左 
ERIR, Amn 表示 A 右 下 的 元 素 。 我 们 通过 用 “:” 表示 水 平 坐标 ， 以 表示 
垂直 坐标 i 中 的 所 有 元 素 。 比 如 ，A;.: 表示 A 中 垂直 坐标 ;上 的 一 横 排 元 素 。 
这 也 被 称 为 4 的 第 i tT (row), PÆ, A. 表示 A 的 第 i 列 (column )。 
当 我 们 需要 明确 表示 矩阵 中 的 元 素 时 ， 我 们 将 它们 写 在 用 方 括号 包围 起 来 的 数 
组 中 : 


Aii Ate 
421 A22 
有 时 我 们 需要 矩阵 值 表达 式 的 索引 ， 而 不 是 单个 元 素 。 在 这 种 情况 下 ， 我 们 在 
表达 式 后 面 接 下 标 , 但 不 必 将 矩阵 的 变量 名 称 小 写 化 。 比 如 ，f( 4)i,; 表示 函数 
f 作用 在 A 上 输出 的 和 矩阵 的 第 i 行 第 j 列 元 素 。 


e KÆ (tensor): 在 某 些 情况 下 ,我 们 会 讨论 坐标 超过 两 维 的 数组 。 一般 地 ,一 
个 数组 中 的 元 素 分 布 在 奉 干 维 坐标 的 规则 网 格 中 ， 我 们 将 其 称 之 为 张 量 。 我 们 


. (2.2) 
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使 用 字体 A 来 表示 张 量 “A”。 张 量 A 中 坐标 为 (i, j,k) 的 元 素 记 作 Abuse 


HE (transpose ) 是 矩阵 的 重要 操作 之 一 。 和 矩阵 的 转 置 是 以 对 角 线 为 轴 的 镜像 ， 
这 条 从 左上 角 到 右 下 角 的 对 角 线 被 称 为 主 对 角 线 (main diagonal), [fl 2.1 显示 了 这 
个 操作 。 我 们 将 矩阵 A 的 转 置 表示 为 AT, EXT 


(A); = Aj. (23) 





向 量 可 以 看 作 是 只 有 一 列 的 矩阵 。 对 应 地 ， 向 量 的 转 置 可 以 看 作 是 只 有 一 行 的 
和 矩阵。 有 时 ， 我 们 通过 将 向 量 元 素 作 为 行 矩 阵 写 在 文本 行 中 ， 然 后 使 用 转 置 操作 将 
其 变 为 标准 的 列 向 量 ， 来 定义 一 个 向 量 ， 比 如 z = [m 22,23] ' . 

标量 可 以 看 作 是 只 有 一 个 元 素 的 矩阵 。 因 此， 标量 的 转 置 等 于 它 本 身 ，a = a'。 





= Aii Agi Agi 
Ai A223 432 





图 2.1: 矩阵 的 转 置 可 以 看 成 是 以 主 对 角 线 为 轴 的 一 个 镜像 。 








只 要 和 矩阵 的 形状 一 样 ， 我 们 可 以 把 两 个 矩阵 相 加 。 两 个 矩阵 相 加 是 指 对 应 位 置 
的 元 素 相 加 ， 比 如 C= A+B, 其 中 Cj = Ai; + Bijo 

标量 和 和 矩阵 相 乘 ,或 是 和 和 矩阵 相 加 时 ， 我 们 只 需 将 其 与 矩阵 的 每 个 元 素 相 乘 或 
TRA, Lee D—a-B- c, 其 中 Dij =a- Bijt cc 

在 深度 学 习 中 ,我们 也 使 用 一 些 不 那么 和 常规 的 符号 。 我 们 允许 矩阵 和 向 量 相 
加 ， 产 生男 一 个 矩阵 : C = A + b, HH Cig = Aij t bjo Az, Hi b ME 
A 的 每 一 行 相 加 。 这 个 简写 方法 使 我 们 无 需 在 加 法 操作 前 定义 一 个 将 向 量 b 复制 
到 每 一 行 而 生成 的 和 矩阵。 这 种 隐 式 地 复制 向 量 b 到 很 多 位 置 的 方式 ， 被 称 为 广播 
( broadcasting )。 





2.2 ”矩阵 和 向 量 相 乘 


抢 阵 乘法 是 矩阵 运算 中 最 重要 的 操作 之 一 。 两 个 矩阵 4 M B H HERIR 
(matrix product ) 是 第 三 个 矩阵 C。 为 了 使 乘法 定义 良好 , 和 矩阵 A 的 列 数 必 须 和 和 拢 
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阵 B 的 行 数 相等 。 如 果 和 矩阵 A 的 形状 是 mx n, EE B 的 形状 是 nx p, 那么 矩阵 
C 的 形状 是 m x po 我 们 可 以 通过 将 两 个 或 多 个 矩阵 并 列 放 置 以 书写 矩阵 乘法 ,例如 


C — AB. (2.4) 
具体 地 ， 该 乘法 操作 定义 为 


Us = Y Ayn Br,j. (2.5) 
k 


需要 注意 的 是 ， 两 个 和 矩阵 的 标准 乘积 不 是 指 两 个 矩阵 中 对 应 元 素 的 乘积 。 不 过 ， 
那样 的 矩阵 操作 确实 是 存在 的 ， 被 称 为 元 素 对 应 乘积 (element-wise product) 或 
者 Hadamard 乘积 (Hadamard product )， 记 为 A B, 

两 个 相同 维 数 的 向 量 zx 和 yy 的 点 积 (dot product ) 可 看 作 是 矩阵 乘积 aly. 我 
们 可 以 把 矩阵 乘积 C = AB 中 计算 Ci; 的 步骤 看 作 是 A 的 第 i 行 和 B 的 第 j 列 之 
间 的 点 积 。 

和 矩阵 乘积 运算 有 许多 有 用 的 性 质 ， 从 而 使 矩阵 的 数学 分 析 更 加 方便 。 比 如 ， 算 


阵 乘积 服从 分 配 律 : 
A(B 4 C) 2 AB 4 AC. (2.6) 
和 矩阵 乘积 也 服从 结合 律 ; 
A(BC) = (AB)C. (2.7) 


不 同 于 标量 乘积 , 矩阵 乘积 并 不 满足 交换 律 ( 4B = BA 的 情况 并 非 总 是 满足 )。 
然而 ， 两 个 向 量 的 点 积 ( dot product ) 满足 交换 律 : 


ZT'Yy=Y am. (2.8) 
和 矩阵 乘积 的 转 置 有 着 简单 的 形式 : 


(AB)! — B' A'. (2.9) 











利用 向 量 乘积 是 标量 ， 标 量 转 置 是 自身 的 事实 ， 我 们 可 以 证 明 式 (2.8) : 
zl y= (zy) — yg. (2.10) 


FA PASAY BE AN ER PEC, 34 DEANTXIEUR RS RB ERE A PU ERE, 
但 读者 应 该 知道 矩阵 乘积 还 有 很 多 有 用 的 性 质 。 
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现在 我 们 已 经 知道 了 足够 多 的 线性 代数 符号 ， 可 以 表达 下 列 线性 方程 组 : 


Ar—b (2.11) 





其 中 AcR™ 是 一 个 已 知 矩 阵 ，p e R” 是 一 个 已 知 向 量 ，z € R 是 一 个 我 们 要 
求解 的 未 知 向 量 。 向 量 z 的 每 一 个 元 素 zx; HIER). ABE 4 的 每 一 行 和 b 中 对 
应 的 元 素 构成 一 个 约束 。 我 们 可 以 把 式 (2.11) 重 写 为 








A.X 一 bi (2.12) 
A».c 一 bə (2.13) 
(2.14) 
AmE = bm (2.15) 
或 者 ， 更 明确 地 ， 写 作 
Aiii RE Aj 2X2 ERA C Ai uta =b (2.16) 
A2121 EE A2.212 e sess ZA er. — bə (2.17) 
(2.18) 
Am di 十 Aq 272 tee Amn&n = bm: (2.19) 


和 矩阵 向 量 乘积 符号 为 这 种 形式 的 方程 提供 了 更 紧凑 的 表示 。 


2.3 BA fic FE BE AO FB E 


线性 代数 提供 了 被 称 为 矩阵 逆 (matrix inversion ) Us X TA. XT MIB 
阵 4， 我 们 都 能 通过 和 矩阵 逆 解 析 地 求解 式 (2.11) 。 

为 了 描述 矩阵 逆 ， 我们 首先 需要 定义 单位 矩阵 (identity matrix) 的 概念 。 任 意 
回 量 和 单位 矩阵 相 乘 ， 都 不 会 改变 。 我 们 将 保持 n 维 向 量 不 变 的 单位 矩阵 记 作 Ino 
ÉRE, te Re, 








Vg € R”, pæ = z. (2.20) 


单位 矩阵 的 结构 很 简单 : 所 有 沿 主 对 角 线 的 元 素 都 是 1， 而 所 有 其 他 位 置 的 元 素 都 是 
0。 如 图 2.2 所 示 的 例子 。 
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1 0 0 
0 1 0 
0 0 1 


图 2.2: 单位 矩阵 的 一 个 样 例 : 这 是 D. 





AERE A 的 矩阵 逆 (matrix inversion) 记 作 4 一 ， 其 定义 的 矩阵 满足 如 下 条 件 


4 A- E. (2.21) 


现在 我 们 可 以 通过 以 下 步 又 求解 式 (2.11) : 


Az=b (2.22) 
AT! Az= A™tb (2.23) 
Lzrz—A!b (2.24) 
r= Ab. (2.25) 


当然 ， 这 取决 于 我 们 能 否 找到 一 个 逆 矩 阵 4 一 。 在 接 下 来 的 章节 中 ， 我 们 会 讨 
WEE A 存在 的 条 件 。 

当 逆 矩阵 A 存在 时 ， 有 几 种 不 同 的 算法 都 能 找到 它 的 闭 解 形 式 。 理 论 上 ， 相 
同 的 逆 矩 阵 可 用 于 多 次 求解 不 同 向 量 b 的 方程 。 然 而 ， 逆 和 矩阵 ACT 主要 是 作为 理论 
工具 使 用 的 ， 并 不 会 在 大 多 数 软件 应 用 程序 中 实际 使 用 。 这 是 因为 道 矩 阵 AT 在 数 
字 计 算 机 上 只 能 表现 出 有 限 的 精度 ， 有 效 使 用 向 量 b 的 算法 通常 可 以 得 到 更 精确 的 


Lo 
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如 果 逆 矩阵 ACT 存在 ， 那 么 式 (2.11) 肯定 对 于 每 一 个 向 量 b 恰好 存在 一 个 解 。 
但 是 ， 对 于 方程 组 而 言 ， 对 于 向 量 b 的 某 些 值 ， 有 可 能 不 存在 解 ， 或 者 存在 无 限 多 
个 解 。 存 在 多 于 一 个 解 但 是 少 于 无 限 多 个 解 的 情况 是 不 可 能 发 生 的 ; 因为 如 果 z 和 
y 都 是 某 方 程 组 的 解 ， 则 

z—az-(l—o)y (2.26) 
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(其 中 a 取 任 意 实 数 ) 也 是 该 方程 组 的 解 。 

为 了 分 析 方 程 有 多 少 个 解 ， 我 们 可 以 将 A 的 列 向 量 看 作 是 从 原点 〈origin ) (元 
素 都 是 零 的 向 量 ) 出 发 的 不 同方 向 , 确定 有 多 少 种 方法 可 以 到 达 向 量 5。 在 这 个 观点 
F, HE x 中 的 每 个 元 素 表 示 我 们 应 该 沿 着 这 些 方向 走 多 远 ， 即 m; 表示 我 们 需要 沿 
着 第 i 个 向 量 的 方向 走 多 远 : 





一 般 而 言 ， 这 种 操作 被 称 为 线性 组 合 (linear combination )。 形式 上 , 一 组 向 量 的 线 
性 组 合 ， 是 指 每 个 向 量 乘 以 对 应 标量 系数 之 后 的 和 ， 即 : 


So av. (2.28) 

















一 组 向 量 的 生成 子 空间 (span ) 是 原始 向 量 线性 组 合 后 所 能 抵达 的 点 的 集合 。 

确定 4z = b 是 否 有 解 相 当 于 确定 向 量 b 是 否 在 A 列 向 量 的 生成 子 空间 中 。 这 
个 特殊 的 生成 子 空间 被 称 为 4 的 列 空间 (column space) 或 者 A 的 值 域 (range )。 

为 了 使 方程 4z = b 对 于 任意 向 量 bem" 都 存在 解 ， 我 们 要 求 A 的 列 空间 构 
成 整个 R” WR R” 中 的 某 个 点 不 在 4 的 列 空间 中 ， 那 么 该 点 对 应 的 b 会 使 得 
该 方程 没有 解 。 和 矩阵 4 的 列 空间 是 整个 R” 的 要 求 ， 意 味 着 A BDA m 列 ， 即 
n>m. fj. A 列 空间 的 维 数 会 小 于 m. fila, (hig A 是 一 个 3 x 2 AYER. H 
ER b te 3 FEN, 但 是 z 只 有 2 维 。 所 以 无 论 如 何 修 改 z 的 值 ， 也 只 能 描绘 出 RO zx 
间 中 的 二 维 平面 。 当 且 仅 当 向 量 b 在 该 二 维 平面 中 时 ,该 方程 有 解 。 

不 等 式 n > m 仅 是 方程 对 每 一 点 都 有 解 的 必要 条 件 。 这 不 是 一 个 充分 条 件 ， 
为 有 些 列 向 量 可 能 是 宛 余 的 。 假设 有 一 个 R? 中 的 矩阵 ， 它 的 两 个 列 向 量 是 相同 
的 。 那 么 它 的 列 空间 和 它 的 一 个 列 向 量 作为 矩阵 的 列 空间 是 一 样 的。 换言之 ,虽然 
该 矩阵 有 2 列 ， 但 是 它 的 列 空间 仍然 只 是 一 条 线 ， 不 能 涵盖 整个 R 空间 。 

正式 地 说 ， 这 种 元 余 被 称 为 线性 相关 (linear dependence )。 如 果 一 组 向 量 中 的 
任意 一 个 向 量 都 不 能 表示 成 其 他 向 量 的 线性 组 合 ， 那 么 这 组 向 量 被 称 为 线性 无 关 
(linearly independent )。 如 果 某 个 向 量 是 一 组 向 量 中 某 些 向 量 的 线性 组 合 ， 那 么 我 
们 将 这 个 向 量 加 入 到 这 组 向 量 后 不 会 增加 这 组 向 量 的 生成 子 空间 。 这 意味 着 ， 如 果 
一 个 矩阵 的 列 空 间 涵 盖 整 个 有 了， 那么 该 矩阵 必须 包含 至 少 一 组 m 个 线性 无 关 的 向 
量 。 这 是 式 (2.11) 对 于 每 一 个 向 量 b 的 取 值 都 有 解 的 充分 必要 条 件 。 值 得 注意 的 是 ， 
这 个 条 件 是 说 该 回 量 集 恰 好 有 mm 个 线性 无 关 的 列 向 量 ， 而 不 是 至 少 m 个 。 不 存在 
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一 个 m 维 向 量 的 集合 具有 多 于 m 个 彼此 线性 不 相关 的 列 向 量 ， 但 是 一 个 有 多 于 m 
个 列 向 量 的 矩阵 却 有 可 能 拥有 不 止 一 个 大 小 为 m 的 线性 无 关 向 量 集 。 
要 想 使 矩阵 可 逆 ， 我们 还 需要 保证 式 (2.11) 对 于 每 一 个 b 值 至 多 有 一 个 解 。 为 
此 ， 我 们 需要 确保 该 矩阵 至 多 有 m 个 列 向 量 。 否 则 ， 该 方程 会 有 不 止 一 个 解 。 
综 上 所 述 ， 这 意味 着 该 矩阵 必须 是 一 个 方 阵 〈square )， 即 m =n, HEMAJI 
向 量 都 是 线性 无 关 的 。 一 个 列 向 量 线性 相关 的 方 阵 被 称 为 奇异 的 (singular )。 
如 果 和 矩阵 A 不 是 一 个 方 阵 或 者 是 一 个 奇异 的 方 阵 ， 该 方程 仍然 可 能 有 解 。 但 是 
我 们 不 能 使 用 矩阵 逆 去 求解 。 
目前 为 止 ， 我 们 已 经 讨论 了 逆 和 矩阵 左 乘 。 我 们 也 可 以 定义 闭 矩 阵 右 乘 : 





AA"! =a. (2.29) 


SPT Mia, CAAMA EAE. 


有 时 我 们 需要 衡量 一 个 向 量 的 大 小 。 在 机 顺 学 习 中 ， 我 们 经 常 使 用 被 称 为 范 数 
(norm ) 的 函数 衡量 向 量 大 小 。 形 式 上 ，L? 范 数 定义 如 下 


1 


lal, = (Ser) (2.30) 


a 





其 中 peR, p>1。 
范 数 (包括 Le 范 数 ) 是 将 向 量 映射 到 非 负 值 的 函数 。 直 观 上 来 说 ， 向 量 z 的 
范 数 衡量 从 原点 到 点 z 的 距离 。 更 严格 地 说 ， 范 数 是 满足 下 列 性 质 的 任意 函数 ， 


e jz)=0 僵 2Z=0 
e f(r-- y) X f(z) 二 f(y) 三角 不 等 式 (triangle inequality )) 
e Vo € R, f(az) = |a| f(x) 


M p=2 Hf, L 范 数 被 称 为 欧 几 里 得 范 数 ( Euclidean norm )。 它 表示 从 原点 
出 发 到 向 量 ae 确定 的 点 的 欧 几 里 得 距离 。 三 ” 范 数 在 机 器 学 习 中 出 现 地 十 分 频繁 ， 经 
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常 简化 表示 为 |z||， 略 去 了 下 标 2。 平方 L? 范 数 也 经 常用 来 衡量 向 量 的 大 小 ， 可 以 
简单 地 通过 点 积 e e 计算 。 

平方 L? 范 数 在 数学 和 计算 上 都 比 L 范 数 本 身 更 方便 。 例 如 ， 平方 L? 范 数 对 
ae 中 每 个 元 素 的 导数 只 取决 于 对 应 的 元 素 ， 而 L? 范 数 对 每 个 元 素 的 导数 却 和 整个 向 
量 相 关 。 但 是 在 很 多 情况 下 ,平方 L? 范 数 也 可 能 不 受 欢迎 ， 因 为 它 在 原点 附近 增长 
得 十 分 缓慢 。 在 某 些 机 器 学 习 应 用 中 ， 区 分 恰好 是 零 的 元 素 和 非 零 但 值 很 小 的 元 素 
是 很 重要 的 。 在 这 些 情 况 下 ， 我 们 转 而 使 用 在 各 个 位 置 斜 率 相同 ， 同 时 保持 简单 的 
数学 形式 的 函数 : L^ WX L^ 范 数 可 以 简化 如 下 : 





læl = D [zil. (2.31) 


当 机 融 学 习 问 题 中 零 和 非 零 元 素 之 间 的 差异 非常 重要 时 ， 通 常会 使 用 L^ 范 数 。 每 当 
Zz 中 某 个 元 素 从 0 增加 e， 对 应 的 LI 范 数 也 会 增加 es 

有 时 候 我 们 会 统计 向 量 中 非 零 元 素 的 个 数 来 衡量 向 量 的 大 小 。 有 些 作 者 将 这 种 
RARA “LO 范 数 ”， 但 是 这 个 术语 在 数学 意义 上 是 不 对 的 。 回 量 的 非 零 元 素 的 数目 
不 是 范 数 ， 因 为 对 向 量 缩放 a 倍 不 会 改变 该 向 量 非 零 元 素 的 数目 。 因 此 ，L! 范 数 经 
常 作为 表示 非 零 元 素数 目的 替代 函数 。 

另外 一 个 经 常 在 机 器 学 习 中 出 现 的 范 数 是 Lo 范 数 ， 也 被 称 为 RATER (max 
norm )。 这 个 范 数 表示 疝 量 中 具有 最 大 幅 值 的 元 素 的 绝对 值 : 


[zl = max [zi]. (2.32) 








有 时 候 我 们 可 能 也 希望 衡量 矩阵 的 大 小 。 在 深度 学 习 中 ， 最 常见 的 做 法 是 使 


FA Frobenius 范 数 ( Frobenius norm ), 
Alle — , 35 42. (2.33) 
ij 
其 类 似 于 向 量 的 L2 范 数 。 


两 个 向 量 的 点 积 (dot product ) 可 以 用 范 数 来 表示 。 具 体 地 ， 
z' y = |zl, lvl, cos 0 (2.34) 
其 中 0 表示 zx All y 之 间 的 夹 角 。 
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2.6 ”特殊 类 型 的 矩阵 和 向 量 


有 些 特 殊 类 型 的 矩阵 和 向 量 是 特别 有 用 的 。 

Xt FASEB (diagonal matrix) 只 在 主 对 角 线 上 含有 非 零 元 素 ， 其 他 位 置 都 是 零 。 
ERE, ABE D EXER, MAMTA i AG, Di; = 0。 我 们 已 经 看 到 
过 一 个 对 角 和 矩阵 : 单位 矩阵 ， 对 角 元 素 全 部 是 1。 我 们 用 diag(v) 表示 一 个 对 角 元 素 
由 向 量 v 中 元 素 给 定 的 对 角 方 阵 。 对 角 和 矩阵 受到 关注 的 部 分 原因 是 对 角 和 矩阵 的 乘法 
计算 很 高 效 。 计 算 乘法 diag(v)zx， 我 们 只 需要 将 z 中 的 每 个 元 素 mz; 放大 vw; o M 
言 之 ，diag(v)z 2 vO z。 计 算 对 角 方 阵 的 闭 矩 阵 也 很 高 效 。 对 角 方 阵 的 逆 抢 阵 存 在 ， 
当 且 仅 当 对 角 元 素 都 是 非 零 值 ,在 这 种 情况 下 ,，diag()-1 = diag([1/vi,...,1/v,]')。 
在 很 多 情况 下 ， 我 们 可 以 根据 任意 矩阵 导出 一 些 通用 的 机 器 学 习 算法 ; 但 通过 将 一 
些 和 矩阵 限制 为 对 角 和 矩阵 ， 我 们 可 以 得 到 计算 代价 较 低 的 (并 且 简 明 扼 要 的 ) 算法 。 

不 是 所 有 的 对 角 和 矩阵 都 是 方 阵 。 长 方形 的 和 矩阵 也 有 可 能 是 对 角 和 矩阵 。 非 方 阵 的 
对 和 角 和 抢 阵 没有 逆 和 矩阵 ， 但 我 们 仍然 可 以 高 效 地 计算 它们 的 乘法 。 对 于 一 个 长 方形 对 
HEE D Wiz. AE Dz 会 涉及 到 x 中 每 个 元 素 的 缩放 ， 如 果 D 是 瘦长 型 矩阵 ， 
那么 在 缩放 后 的 末尾 添加 一 些 零 ; 如 果 D 是 胖 宽 型 矩阵 ， 那 么 在 缩放 后 去 掉 最 后 一 
些 元 素 。 


对 称 (symmetric ) 矩阵 是 转 置 和 自己 相等 的 矩阵 : 











A — Al. (2.35) 


REG RIES BOE HY BEB PRE JUR NE, OTRAS SS (UA, n 
PAPA XT PRAY o 


单位 向 量 (unit vector) 是 具有 单位 范 数 (unit norm ) 的 向 量 : 


lall, = 1. (2.36) 


如 果 x y-0, 那么 向 量 x 和 向 量 y 互相 正 交 (orthogonal )。 如 果 两 个 向 量 都 
有 非 零 范 数 ， 那 么 这 两 个 向 量 之 间 的 夹 角 是 90 度 。 在 R" 中， 至 多 有 n 个 范 数 非 
零 问 量 互相 正 交 。 如 果 这 些 向 量 不 仅 互 相 正 交 ， 并 且 范 数 都 为 1， 那 么 我 们 称 它 们 


是 标准 正 交 (orthonormal )。 
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TE 3 46 B& (orthogonal matrix ) 是 指 行 向 量 和 列 向 量 是 分 别 标准 正 交 的 方 阵 : 
A'A=AA' =I. (2.37) 
A'=A', (2.38) 
JT LA TEAC HR MESS SUE TE EA AR BT RAO). Ef T ETE ETE CFE EE MR 
直觉 地 ， 正 交 抢 阵 的 行 向 量 不 仅 是 正 交 的 ， 还 是 标准 正 交 的 。 对 于 行 向 量 或 列 向 量 
互相 正 交 但 不 是 标准 正 交 的 矩阵 没有 对 应 的 专 有 术语 。 


2.7 ”特征 分 解 


许多 数学 对 象 可 以 通过 将 它们 分 解 成 多 个 组 成 部 分 ， 或 者 找到 它们 的 一 些 属性 
而 更 好 地 理解 ， 这 些 属性 是 通用 的 ， 而 不 是 由 我 们 选择 表示 它们 的 方式 产生 的 。 

例如 ， 整 数 可 以 分 解 为 质 因数 。 我 们 可 以 用 十 进 制 或 二 进 制 等 不 同方 式 表 示 整 
数 12, 但 是 12 = 2 x 3 x 3 永远 是 对 的 。 从 这 个 表示 中 我 们 可 以 获得 一 些 有 用 的 信 
息 ， 比 如 12 不 能 被 5 整除 ， 或 者 12 的 倍数 可 以 被 3 整除 。 

正如 我 们 可 以 通过 分 解 质 因 数 来 发 现 整数 的 一 些 内 在 性 质 ， 我 们 也 可 以 通过 分 
解 矩 阵 来 发 现 矩阵 表示 成 数组 元 素 时 不 明显 的 函数 性 质 。 


特征 分 解 (eigendecomposition ) 是 使 用 最 广 的 矩阵 分 解 之 一 ， 即 我 们 将 矩阵 分 
解 成 一 组 特征 向 量 和 特征 值 。 

方 阵 A 的 特征 向 量 (eigenvector) 是 指 与 A 相 乘 后 相当 于 对 该 向 量 进 行 缩放 
的 非 零 向 量 v: 








Av = Av. (2.39) 
标量 A 被 称 为 这 个 特征 向 量 对 应 的 特征 值 (eigenvalue )。 (类似 地 ， 我 们 也 可 以 
定义 左 特征 向 量 (left eigenvector) v! A = Av! ， 但 是 通常 我 们 更 关注 右 特 征 向 量 
(Tight eigenvector ) )。 

如 果 ve A 的 特征 向 量 ,那么 任何 缩放 后 的 向 量 sv(seR, sz 0) 也 是 4 的 
特征 向 量 。 此 外 ，sw 和 wv 有 相同 的 特征 值 。 基 于 这 个 原因 ， 通 常 我 们 只 考虑 单位 特 
征 向 量 。 

假设 矩阵 A 有 n 个 线性 无 关 的 特征 向 量 fo) ,uc ， 对 应 着 特征 值 
Dui... Anto 我 们 将 特征 向 量 连 接 成 一 个 矩阵 ， 使 得 时 每 列 是 一 个 特征 向 量 : 
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V — [0 ,..., v9]. 类 似 地 ,我 们 也 可 以 将 特征 值 连接 成 一 个 向 量 入 = Dass An] To 
因此 4 的 特征 分 解 (eigendecomposition ) 可 以 记 作 


A = Vdiag(A)V~*. (2.40) 


我 们 已 经 看 到 了 构建 具有 特定 特征 值 和 特征 向 量 的 和 矩阵， 能 够 使 我 们 在 目标 方 
向 上 延伸 空间 。 然而, 我们 也 常常 希望 将 矩阵 分解 ( decompose ) 成 特征 值 和 特征 向 
量 。 这 样 可 以 帮助 我 们 分 析 和 矩阵 的 特定 性 质 ， 就 像 质 因数 分 解 有 助 于 我 们 理解 整数 。 
不 是 每 一 个 矩阵 都 可 以 分 解 成 特征 值 和 特征 向 量 。 在 某 些 情 况 下 ， 特 征 分 解 存 
在 ， 但 是 会 涉及 到 复数 ， 而 非 实 数 。 和 幸运 的 是 ， 在 本 书 中 我 们 通 带 只 需要 分 解 一 类 
有 简单 分 解 的 矩阵 。 具 体 地 ， 每 个 实 对 称 和 矩阵 都 可 以 分 解 成 实 特征 向 量 和 实 特征 值 : 


A= QAQ'. (2.41) 


其 中 Q 是 A 的 特征 向 量 组 成 的 正 交 和 矩 阵 ，A 是 对 角 和 矩阵 。 特 征 值 Ai; 对 应 的 特征 
向 量 是 矩阵 Q W iJ, E Q HD Q 是 正 交 和 矩阵， 我 们 可 以 将 A 看 作 是 沿 
方向 vO 延展 A, 倍 的 空间 。 如 图 2.3 所 示 的 例子 。 

虽然 任意 一 个 实 对 称 和 矩阵 A 都 有 特征 分 解 ， 但 是 特征 分 解 可 能 并 不 唯一 。 如 果 
两 个 或 多 个 特征 向 量 拥有 相同 的 特征 值 ， 那 么 在 由 这 些 特 征 向 量 产生 的 生成 子 空间 
中 ,任意 一 组 正 交 向 量 都 是 该 特征 值 对 应 的 特征 向 量 。 因 此 ， 我 们 可 以 等 价 地 从 这 
些 特征 向 量 中 构成 Q 作为 替代 。 按 照 惯例 ， 我 们 通常 按 降 序 排 列 A 的 元 素 。 在 该 
约定 下 ， 特 征 分 解 唯 一 当 且 仅 当 所 有 的 特征 值 都 是 唯一 的 。 

和 抢 阵 的 特征 分 解 给 了 我 们 很 多 关于 和 矩阵 的 有 用 信息 。 移 阵 是 奇异 的 当 且 仅 当 含 
有 零 特 征 值 。 实 对 称 和 抢 阵 的 特征 分 解 也 可 以 用 于 优化 二 次 方程 f(x) 2x 4z， 其 中 
限制 æl = 1. ?4 x 等 于 4 的 某 个 特征 向 量 时 ，f 将 返回 对 应 的 特征 值 。 在 限制 条 
FER, PRC f 的 最 大 值 是 最 大 特征 值 ， 最 小 值 是 最 小 特征 值 。 

所 有 特征 值 都 是 正 数 的 矩阵 被 称 为 正定 ( positive definite); 所 有 特征 值 都 是 非 
负数 的 矩阵 被 称 为 半 正 定 (positive semidefinite )。 同 样 地 ， 所 有 特征 值 都 是 负数 的 
和 矩阵 被 称 为 负 定 (negative definite); 所 有 特征 值 都 是 非 正 数 的 和 矩阵 被 称 为 半 负 定 
(negative semidefinite )。 半 正定 矩阵 受到 关注 是 因为 它们 保证 Va, m! 4z > 0。 此 外 ， 
正定 和 矩阵 还 保证 z7r4z=0 僵 z=0。 
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Effect of eigenvectors and eigenvalues 


Before multiplication After multiplication 
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图 2.3: (RPE m EREE ERAR RAE TD REE EARR — PSE, EAE, EE 
A 有 两 个 标准 正 交 的 特征 向 量 ， 对 应 特征 值 为 Xi 的 wt? 以 及 对 应 特征 值 为 Ao 的 vO 。( 左 ) 我 
们 画 出 了 所 有 的 单位 向 量 ue R? 的 集合 ， 构 成 一 个 单位 圆 。( 右 ) 我 们 画 出 了 所 有 的 Au 点 的 集 
合 。 通 过 观察 A 拉 伸 单位 圆 的 方式 ， 我 们 可 以 看 到 它 将 v? 方向 的 空间 拉 伸 了 入; fo 















































2.8 ”奇异 值 分 解 


在 第 2.7 节 ， 我 们 探讨 了 如 何 将 矩阵 分 解 成 特征 向 量 和 特征 值 。 还 有 另 一 种 分 解 
矩阵 的 方法 ， 被 称 为 育 异 值 分 解 singular value decomposition, SVD )， 将 和 矩阵 分 
解 为 奇异 向 量 (singular vector) 和 奇异 值 (singular value )。 通 过 奇异 值 分 解 ， 我 
们 会 得 到 一 些 与 特征 分 解 相 同类 型 的 信息 。 然 而 ， 奇 异 值 分 解 有 更 广泛 的 应 用 。 
个 实数 矩阵 都 有 一 个 奇异 值 分 解 ， 但 不 一 定 都 有 特征 分 解 。 例 如 ， 非 方 阵 的 矩阵 没 
有 特征 分 解 ， 这 时 我 们 只 能 使 用 奇异 值 分 解 。 

回想 一 下 ,我们 使 用 特征 分 解 去 分 析 和 矩阵 A 时 ， 得 到 特征 向 量 构成 的 矩阵 V 
和 特征 值 构成 的 向 量 和 和， 我们 可 以 重新 将 4 写作 





A = Vdiag(A)V.. (2.42) 
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奇异 值 分 解 是 类 似 的 ， 只 不 过 这 回 我 们 将 矩阵 4 分 解 成 三 个 矩阵 的 乘积 : 


A=UDV'. (2.43) 


假设 A 是 一 个 m xn 的 矩阵 , 那么 局 是 一 个 m xm 的 和 矩阵 ,万 是 一 个 mm xm 
的 和 矩阵， 是 一 个 n x n FER 

这 些 和 矩阵 中 的 每 一 个 经 定义 后 都 拥有 特殊 的 结构 。 和 矩 阵 UC V 都 被 定义 为 正 
ABE, MEE D SEXE. HX. ABE D 不 一 定 是 方 阵 。 

XT AFR: D 对 角 线 上 的 元 素 被 称 为 矩阵 A 的 奇异 值 (singular value). 4ER 
U 的 列 向 量 被 称 为 左 奇 异 向 量 (left singular vector )， 和 矩阵 六 的 列 向 量 被 称 右 奇 异 


向 量 (right singular vector )。 


事实 上 ， 我 们 可 以 用 与 4 相关 的 特征 分 解 去 解释 4 的 奇异 值 分 解 。4 的 左 奇 
异 向 量 (left singular vector) 是 44 ”的 特征 向 量 。 A 的 右 奇异 向 量 (right singular 
vector) 是 4 A 的 特征 向 量 。4 的 非 零 奇异 值 是 A’ A 特征 值 的 平方 根 ， 同 时 也 是 
AA' 特征 值 的 平方 根 。 


SVD 最 有 用 的 一 个 性 质 可 能 是 拓展 矩阵 求 逆 到 非 方 矩阵 上 。 我 们 将 在 下 一 节 中 
探讨 。 


2.9 Moore-Penrose H% 


对 于 非 方 矩阵 而 言 ， 其 逆 和 矩阵 没有 定义 。 假 设 在 下 面 的 问题 中 ， 我 们 希望 通过 
和 矩阵 A 的 左 逆 B 来 求解 线性 方程 ， 


Az=y (2.44) 
SW WAAC Bla, RAA 
x= By. (2.45) 


取决 于 问题 的 形式 ， 我 们 可 能 无 法 设计 一 个 唯一 的 映射 将 4 映射 到 五。 
如 果 和 矩阵 A 的 行 数 大 于 列 数 ， 那 么 上 述 方程 可 能 没有 解 。 如 果 抢 阵 4 的 行 数 
小 于 列 数 ， 那 么 上 述 矩 阵 可 能 有 多 个 解 。 
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Moore-Penrose 143 ( Moore-Penrose pseudoinverse ) 使 我 们 在 这 类 问题 上 
取得 了 一 定 的 进展 。 甜 阵 A 的 伪 逆 定义 为 : 
4+ = lim(A A +aD A". (2.46) 
计算 伪 逆 的 实际 算法 没有 基于 这 个 定义 ， 而 是 使 用 下 面 的 公式 : 
At = VD'U'. (2.47) 
HB, E U, DA VERE AAT SHEAR a T SIRIABIEE. HAEE D A 
D* 是 其 非 零 元 素 取 倒 数 之 后 再 转 置 得 到 的 。 
MARE 4 的 列 数 多 于 行 数 时 ， 使 用 伪 逆 求解 线性 方程 是 众多 可 能 解法 中 的 一 
种 。 特 别 地 ，z = A y 是 方程 所 有 可 行 解 中 欧 几 里 得 范 数 |zll。 最 小 的 一 个 。 


“FER A 的 行 数 多 于 列 数 时 ， 可 能 没有 解 。 在 这 种 情况 下 ， 通 过 伪 逆 得 到 的 z 
使 得 Aa y 的 欧 几 里 得 距离 |4z- yl, 最 小 。 

















迹 运算 返回 的 是 矩阵 对 角 元 素 的 和 : 


迹 运 算 因 为 很 多 原因 而 有 用 。 若 不 使 用 求 和 符号 ， 有 些 和 矩阵 运算 很 难 描述 ， 而 通 
过 矩阵 乘法 和 迹 运 算 符 号 ， 可 以 清楚 地 表示 。 例 如 ， 迹 运算 提供 了 另 一 种 描述 乞 


FEFrobenius 范 数 的 方式 : 
All p = V/T«CAA7). (2.49) 


用 迹 运算 表示 表达 式 ， 我 们 可 以 使 用 很 多 有 用 的 等 式 巧 妙 地 处 理 表达 式 。 例 如 ， 
迹 运算 在 转 置 运算 下 是 不 变 的 ; 








Tr(A) = Tr(A‘). (2.50) 


多 个 矩阵 相 乘 得 到 的 方 阵 的 迹 ， 和 将 这 些 和 矩阵 中 的 最 后 一 个 挪 到 最 前 面 之 后 相 
乘 的 迹 是 相同 的 。 当 然 ， 我 们 需要 考虑 挪动 之 后 和 矩阵 乘积 依然 定义 良好 : 


Tr(ABC) = Tr(CAB) = TY(BCA). (2.51) 
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或 者 更 一 般 地 ， 


n n—1 
TU £9?) = mor TT £9). (2.52) 
j=l 


4=1 
即使 循环 置换 后 矩阵 乘积 得 到 的 矩阵 形状 变 了 ， 迹 运算 的 结果 依然 不 变 。 例 如 ， 假 
WIERE A c R”*”, FER Be R**m， 我 们 可 以 得 到 


Tr(AB) = TY(BA) (2.53) 


尽管 ABem"*" 和 BAc R"*^, 
另 一 个 有 用 的 事实 是 标量 在 迹 运算 后 仍然 是 它 自 己 : a = Tr(a). 





2.11 行列 式 


行列 式 , 记 作 det(4)， 是 一 个 将 方 阵 4 映射 到 实数 的 函数 。 行列 式 等 于 和 矩阵 特 
征 值 的 乘积 。 行 列 式 的 绝对 值 可 以 用 来 衡量 矩阵 参与 矩阵 乘法 后 空间 扩大 或 者 缩小 
了 多 少 。 如 果 行 列 式 是 0， 那 么 空间 至 少 沿 着 某 一 维 完全 收缩 了 , 使 其 失去 了 所 有 的 
体积 。 如 果 行 列 式 是 1， 那 么 这 个 转换 保持 空间 体积 不 变 。 


2.12 ”实例 : 主 成 分 分 析 


主 成 分 分 析 (principal components analysis, PCA ) 是 一 个 简单 的 机 器 学 习 算 
法 ， 可 以 通过 基础 的 线性 代数 知识 推导 。 

假设 在 R^ 空间 中 我 们 有 m 个 点 {x2 四)... ,2 中}， 我 们 希望 对 这 些 点 进行 有 损 
压缩 。 有 损 压缩 表示 我 们 使 用 更 少 的 内 存 ， 但 损失 一 些 精 度 去 存储 这 些 点 。 我 们 希 
望 损失 的 精度 尽 可 能 少 。 

一 种 编码 这 些 点 的 方式 是 用 低 维 表示 。 对 于 每 个 点 a0 e R^, 会 有 一 个 对 应 的 
编码 向 量 CO ER, WRT 比 n 小 ， 那 么 我 们 便 使 用 了 更 少 的 内 存 来 存储 原来 的 数 
据 。 我 们 希望 找到 一 个 编码 函数 ， 根 据 输入 返回 编码 ，f (zx) = es 我 们 也 希望 找到 一 
个 解码 函数 ， 给 定编 码 重 构 输 入 ，z 守 g(f (72))。 

PCA 由 我 们 选择 的 解码 函数 而 定 。 具 体 地 ， 为 了 简化 解码 器 ， 我 们 使 用 抢 阵 乘 
法 将 编码 映射 回 R*， 即 gle) 2 De, Hr! D eR?” 是 定义 解码 的 矩阵 。 
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目前 为 止 所 描述 的 问题 ， 可 能 会 有 多 个 解 。 因 为 如 果 我 们 按 比例 地 缩小 所 有 点 
对 应 的 编码 向 量 c;， 那 么 我 们 只 需 按 比例 放大 D.;， 即 可 保持 结果 不 变 。 为 了 使 问 
题 有 唯一 解 ， 我 们 限制 D 中 所 有 列 向 量 都 有 单位 范 数 。 

计算 这 个 解码 器 的 最 优 编码 可 能 是 一 个 困难 的 问题 。 为 了 使 编码 问题 简单 一 些 ， 
PCA 限制 D 的 列 向 量 彼此 正 交 (注意 ， 除 非 D n， 否 则 严格 意义 上 D 不 是 一 个 
正 交 和 矩阵 )。 

为 了 将 这 个 基本 想法 变 为 我 们 能 够 实现 的 算法 ， 首 先 我 们 需要 明确 如 何 根 据 每 
一 个 输入 x 得 到 一 个 最 优 编码 ce*。 一 种 方法 是 最 小 化 原始 输入 向 量 zx 和 重 构 向 量 
g(c*) 之 间 的 距离 。 我 们 使 用 范 数 来 衡量 它们 之 间 的 距离 。 在 PCA 算法 中 ,我 们 使 
用 D? 范 数 : 

















œ = argmin ||z — g(c) ||, . (2.54) 
我 们 可 以 用 平方 L WAR L^ 范 数 ， 因 为 两 者 在 相同 的 值 c 上 取得 最 小 值 。 
这 是 因为 到 范 数 是 非 负 的 ， 并且 平方 运算 在 非 负 值 上 是 单调 递增 的 。 
c = arg min ||z — OIE (2.55) 
该 最 小 化 函数 可 以 简化 成 
(z— 9(e)) (z— g(o)) (2.56) 
(IÑ (2.30) 中 L? 范 数 的 定义 ) 
= a^a — a^ g(e)—9(e)"#+ gle)" gle) (2.57) 
(分 配 律 ) 
= zz —2z'g(c) 4 glc)’ g(c) (2.58) 
(因为 标量 g(c) a 的 转 置 等 于 自己 ) 
因为 第 一 项 zz 不 依赖 于 ec， 所 以 我 们 可 以 忽略 它 ， 得 到 如 下 的 优化 目标 : 
c = argmin — 2z' g(c) + g(c) ' g(c). (2.59) 
更 进一步 ， 我 们 代入 gle) 的 定义 : 
c* = argmin — 2z! Dc + c! D' Dc (2.60) 


= argmin — 2z! Dc + c! Te (2.61) 
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(矩阵 D 的 正 交 性 和 单位 范 数 约束 ) 


= argmin — 2z! De+ c'c (2.62) 

我 们 可 以 通过 向 量 微 积 分 来 求解 这 个 最 优化 问题 〈 如 果 你 不 清楚 怎么 做 ， 请 参 
考 第 4.3 节 ) 

V.(—22' Dece+ecrc)=0 (2.63) 

~2D'2+2c=0 (2.64) 

c= Da. (2.65) 


这 使 得 算法 很 高 效 : 最 优 编码 z 只 需要 一 个 矩阵 -向 量 乘 法 操作 。 为 了 编码 向 量 ， 
我 们 使 用 编码 函数 : 
f(z)=D'z. (2.66) 
进一步 使 用 矩阵 乘法 ， 我 们 也 可 以 定义 PCA 重 构 操作 : 


r(x) = g(f(z)) = DD” z. (2.67) 


接 下 来 ,我 们 需要 挑选 编码 矩阵 D。 要 做 到 这 一 点 ， 我们 回顾 最 小 化 输入 和 重 
构 之 间 L? 距离 的 这 个 想法 。 因 为 我 们 用 相同 的 矩阵 D 对 所 有 点 进行 解码 ， 我 们 
不 能 再 扳 立 地 看 得 每 个 点 。 反 之 ， 我 们 必须 最 小 化 所 有 维 数 和 所 有 点 上 的 误差 矩阵 
f] Frobenius 范 数 : 





D* = arg min 2. E z (af), subject to D' D = I. (2.68) 
为 了 推导 用 于 寻求 D' 的 算法 ,我 们 首先 考虑 1 = 1 的 情况 。 在 这 种 情况 下 ，D 
是 一 个 单一 向 量 d。 将 式 (2.67) 代入 式 (2.68) ， 简 化 万 为 d, 问题 简化 为 
d = i 
up? | 
上 述 公 式 是 直接 代入 得 到 的 , 但 不 是 文体 表述 最 舒服 的 方式 。 在 上 述 公 式 中 , 我 
们 将 标量 d'a 放 在 向 量 d 的 右边 。 将 该 标量 放 在 左边 的 写法 更 为 传统 。 于 是 我 们 
通常 写作 如 下 : 


d = argmin X` | 
d 


] A2 
a? — dd'a(?| subject to ||d||, = 1. (2.69) 
2 

















, " 2 
a? — d'a? a| subject to ||dl, = 1, (2.70) 
2 
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或 者 ， 考 虑 到 标量 的 转 置 和 自身 相等 ， 我 们 也 可 以 写作 : 
Č = en) |a? — a" ddl), subject to ||d||, = 1. (2.71) 
读者 应 该 对 这 些 重 排 写法 慢 慢 熟悉 起 来 。 
此 时 ， 使 用 单一 矩阵 来 重 述 问题 ， 比 将 问题 写成 求 和 形式 更 有 帮助 。 这 有 助 于 


我 们 使 用 更 紧凑 的 符号 。 将 表示 各 点 的 向 量 堆 释 成 一 个 矩阵 , 记 为 X eR”, Hp 
X = zx 。 原 问题 可 以 重新 表述 为 : 








2 
d' = argmin |x- Xdd'| subject to d' d= 1. (2.72) 
d F 





暂时 不 考虑 约束 ， 我 们 可 以 将 Frobenius 范 数 简化 成 下 面 的 形式 : 








ang min |x- xad || (2.73) 
= arg min Tr ((x- xad”) (x- xaa") ) (2.74) 

CX (2.49) ) 
= argmin Tr (x Me x" xdd" Md X X+ dd' X' Xdd') (2.75) 





= arg min Tr(X" X) — Tr(X' Xdd' ) — Tr(dd' X' X) + Tr(dd' X' Xdd') (2.76) 
= arg min — Tr(X' Xdd') — Tr(dd' X! X) + Tr(dd' X! Xdd') (2.77) 
( 因为 与 d 无 关 的 项 不 影响 arg min ) 
= arg min 一 2Tr(X Xdd') + Tr(dd' X' Xdd') (2.78) 
(因为 循环 改变 迹 运 算 中 相 乘 矩阵 的 顺序 不 影响 结果 ， 如 式 (2.52) 所 示 ) 
= arg min — 2Tr(X' Xdd') + Tr(X' Xdd' dd') (2.79) 
(再 次 使 用 上 述 性 质 ) 
此 时 ,我 们 再 来 考虑 约束 条 件 : 


argmin — 2Tr(X' Xdd') + Tr(X' Xdd' dd') subject to d' d= 1 (2.80) 
d 
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= arg min — 2Tr(X' Xdd') + Tr(X' Xdd') subject to d'd— 1 (2.81) 

(因为 约束 条 件 ) 
一 argmin — Tr(X' Xdd') subject to d d= 1 (2.82) 
= arg max Tr(X' Xdd') subject to d'd— 1 (2.83) 
= arg max Tr(d X' Xd) subject to d'd=1. (2.84) 


这 个 优化 问题 可 以 通过 特征 分 解 来 求解 。 具 体 地 ， 最 优 的 d 是 X' X 最 大 特征 
值 对 应 的 特征 向 量 。 

以 上 推导 特定 于 /= 1 的 情况 ， 仅 得 到 了 第 一 个 主 成 分 。 更 一 般 地 ， 当 我 们 希望 
得 到 主 成 分 的 基 时 ， 矩 阵 D 由 前 7 个 最 大 的 特征 值 对 应 的 特征 向 量 组 成 。 这 个 结论 
可 以 通过 归纳 法 证 明 ， 我 们 建议 将 此 证 明 作为 练习 。 

线性 代数 是 理解 深度 学 习 所 必须 掌握 的 基础 数学 学 科 之 一 。 另 一 门 在 机 器 学 习 
中 无 处 不 在 的 重要 数学 学 科 是 概率 论 ， 我 们 将 在 下 章 探讨 。 
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本 章 我 们 讨论 概率 论 和 信息 论 。 

概率 论 是 用 于 表示 不 确定 性 声明 (statement ) 的 数学 框架 。 它 不 仅 提 供 了 量化 
不 确定 性 的 方法 , 也 提供 了 用 于 导出 新 的 不 确定 性 声明 的 公理 。 在 人 工 智 能 领域 ， 概 
率 论 主要 有 两 种 用 途 。 首 先 ， 概 率 法 则 告诉 我 们 AI 系统 如 何 推理 ， 据 此 我 们 设计 一 
些 算 法 来 计算 或 者 估算 由 概率 论 导 出 的 表达 式 。 其 次 ， 我 们 可 以 用 概率 和 统计 从 理 
论 上 分 析 我 们 提出 的 AI 系统 的 行为 。 

概率 论 是 众多 科学 和 工程 学 科 的 基本 工具 。 我 们 提供 这 一 章 是 为 了 保证 那些 背 
景 是 软件 工程 而 较 少 接触 概率 论 的 读者 也 可 以 理解 本 书 的 内 容 。 

概率 论 使 我 们 能 够 作出 不 确定 的 声明 以 及 在 不 确定 性 存在 的 情况 下 进行 推理 ， 
而 信息 论 使 我 们 能 够 量化 概率 分 布 中 的 不 确定 性 总 量 。 

如 果 你 已 经 对 概率 论 和 信息 论 很 熟悉 了 , 那么 除了 第 3.14 节 以 外 的 整 章 内 容 , 你 
都 可 以 跳 过 。 而 在 第 3.14 节 中 ， 我 们 会 介绍 用 来 描述 机 器 学 习 中 结构 化 概率 模型 的 
图 。 即 使 你 对 这 些 主题 完全 没有 任何 的 先 验 知识 ， 本 章 对 于 完成 深度 学 习 的 研究 项 
目 来 说 已 经 足够 ， 但 我 们 还 是 建议 你 能 够 参考 一 些 额 外 的 资料 ， 例 如 Jaynes (2003)。 











31 为 什么 要 使 用 概率 ? 


计算 机 科学 的 许多 分 支 处 理 的 实体 大 部 分 都 是 完全 确定 且 必 然 的 。 程 序 员 通常 
可 以 安全 地 假定 CPU 将 完美 地 执行 每 条 机 带 指 令 。 硬件 错误 确实 会 发 生 , BENE 
够 罕见 ， 以 致 于 大 部 分 软件 应 用 在 设计 时 并 不 需要 考虑 这 些 因 素 的 影响 。 鉴 于 许多 
计算 机 科学 家 和 软件 工程 师 在 一 个 相对 干净 和 确定 的 环境 中 工作 ， 机 器 学 习 对 于 概 
率 论 的 大 量 使 用 是 很 令 人 上 吃 慰 的 。 
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这 是 因为 机 还 学 习 通常 必须 处 理 不 确定 量 ,， 有 时 也 可 能 需要 处 理 随机 ( 非 确定 性 
AY) 量 。 不 确定 性 和 随机 性 可 能 来 自 多 个 方面 。 至 少 从 20 世纪 80 FRFR, WMR 
人 员 就 对 使 用 概率 论 来 量化 不 确定 性 提出 了 令 人 信服 的 论据 。 这 里 提出 的 许多 论点 
都 是 根据 Pearl (1988) 总 结 或 启发 得 到 的 。 

几乎 所 有 的 活动 都 需要 能 够 在 不 确定 性 存在 时 进行 推理 。 事 实 上 ， 除 了 那些 被 
定义 为 真 的 数学 声明 ， 我 们 很 难 认 定 某 个 命题 是 千 真 万 确 的 或 者 确保 某 件 事 一 定 会 
发 生 。 

不 确定 性 有 三 种 可 能 的 来 源 : 





1. 被 建 模 系统 内 在 的 随机 性 。 例 如 ， 大 多 数量 子 力学 的 解释 ， 都 将 亚 原子 粒子 的 
动力 学 描述 为 概率 的 。 我 们 还 可 以 创建 一 些 我 们 假设 具有 随机 动态 的 理论 情境 ， 
例如 一 个 假想 的 纸牌 游戏 , 在 这 个 游戏 中 我 们 假设 纸牌 真正 混 洗 成 了 随机 顺序 。 


. 不 完全 观测 。 即 使 是 确定 的 系统 ， 当 我 们 不 能 观测 到 所 有 驱动 系统 行为 的 变量 
时 ,该 系统 也 会 呈现 随机 性 。 例如; 在 Monty Hall 问题 中 , 一 个 游戏 节目 的 参 
赛 者 被 要 求 在 三 个 门 之 间 选 择 并 且 万 得 放置 在 选中 门 后 的 奖金 。 两 扇 门 通 向 山 
羊 ， 第 三 扇 门 通 向 一 辆 汽车 。 选 手 选择 所 导致 的 结果 是 确定 的 ， 但 是 站 在 选手 
的 角度 ， 结 果 是 不 确定 的 。 


. 不 完全 建 模 。 当 我 们 使 用 一 些 必须 舍弃 某 些 观测 信息 的 模型 时 ,舍弃 的 信息 会 
导致 模型 的 预测 出 现 不 确定 性 。 例 如 ,假设 我 们 制作 了 一 个 机 器 人 ， 它 可 以 准 
确 地 观察 周围 每 一 个 对 象 的 位 置 。 如 果 预 测 这 些 对 象 将 来 的 位 置 时 机 器 人 采用 
的 是 离散 化 的 空间 ， 那 么 离散 化 使 得 机 带 人 立即 变 得 不 能 确定 对 象 的 精确 位 置 : 
每 个 对 象 都 可 能 处 于 它 被 观察 到 占据 的 离散 单元 的 任何 位 置 。 


N 





CD 





在 很 多 情况 下 ， 使 用 一 些 简 单 而 不 确定 的 规则 要 比 复杂 而 确定 的 规则 更 为 实用 ， 
即使 真正 的 规则 是 确定 的 并 且 我 们 建 模 的 系统 可 以 足够 精确 地 容纳 复杂 的 规则 。 例 
如 ， 简 单 的 原则 “多 数 鸟 儿 都 会 习 ” 的 描述 很 简单 很 并 且 使 用 广泛 ， 而 正式 的 规则 
一 一 “除了 那些 非常 小 的 还 没 学 会 飞翔 的 幼 鸟 ， 因 为 生病 或 是 受伤 而 失去 了 飞翔 能 力 
WS, AS KN SRA AS (cassowary), K$ (ostrich), JLAE (kiwi, 一 种 新 西 
兰 产 的 无 辟 鸟 )…… 等 等 ， 鸟 会 各， 很 难 应 用 、 维 护 和 沟通 ， 即 使 经 过 所 有 这 些 的 努 
力 ， 这 些 规 则 还 是 很 脆弱 的 ， 并 且 容 易 失效 。 

尽管 我 们 的 确 需要 一 种 用 以 对 不 确定 性 进行 表示 和 推理 的 方法 ， 但 是 概率 论 并 
不 能 明显 地 提供 我 们 在 人 工 智能 领域 需要 的 所 有 工具 。 概 率 论 最 初 的 发 展 是 为 了 分 
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析 事 件 发 生 的 频率 。 我 们 可 以 很 容易 地 看 出 概率 论 ， 对 于 像 在 扑克 牌 游戏 中 抽出 一 
手 特 定 的 牌 这 种 事件 的 研究 中 ， 是 如 何 使 用 的 。 这 类 事件 往往 是 可 以 重复 的 。 当 我 
们 说 一 个 结果 发 生 的 概率 为 p»， 就 意味 着 如 果 我 们 反复 实验 (例如 ， 抽 取 一 手 牌 ) 无 
EK, A p 的 比例 会 导致 这 样 的 结果 。 这 种 推理 似乎 并 不 立即 适用 于 那些 不 可 重复 
的 命题 。 如 果 一 个 医生 诊断 了 病人 ， 并 说 该 病人 患 流感 的 几率 为 40%， 这 意味 着 非 
党 不 同 的 事情 一 一 我 们 既 不 能 让 病人 有 无 穷 多 的 副本 ， 也 没有 任何 理由 去 相信 病人 
的 不 同 副本 在 具有 不 同 的 潜在 条 件 下 表现 出 相同 的 症状 。 在 医生 诊断 病人 的 情况 下 ， 
我 们 用 概率 来 表示 一 种 BEE (degree of belief )， 其 中 1 表示 非常 肯定 病人 患 有 流 
感 ， 而 0 表示 非常 肯定 病人 没有 流感 。 前 面 一 种 概率 ， 直 接 与 事件 发 生 的 频率 相 联 
A, BAKA 频率 派 概率 ( frequentist probability); 而 后 者 ， 涉 及 到 确定 性 水 平 ， 被 
PON 贝 叶 斯 概率 ( Bayesian probability ). 

如 果 要 列 出 一 些 关 于 不 确定 性 的 常识 推理 中 我 们 希望 其 具有 的 性 质 ， 那 么 满足 
这 些 性 质 的 唯一 一 点 就 是 将 贝 叶 斯 概率 和 频率 派 概率 视 为 等 同 的 。 例 如 ， 如 果 我 们 
要 在 扑克 牌 游戏 中 根据 玩家 手 上 的 牌 计 算 她 能 够 获胜 的 概率 ， 我 们 和 医生 情境 使 用 
完全 相同 的 公式 ， 就 是 我 们 依据 病人 的 某 些 症状 计算 她 是 否 患 病 的 概率 。 有 关 一 个 
小 集合 的 常识 假设 为 什么 能 够 导出 相同 公理 的 细节 必须 深入 了 解 这 两 种 概率 ， 参 
见 Ramsey (1926)。 

概率 可 以 被 看 作 是 用 于 处 理 不 确定 性 的 逻辑 扩展 。 逻 辑 提供 了 一 套 形式 化 的 规 
则 , 可 以 在 给 定 某 些 命题 是 真 或 假 的 假设 下 , 判断 另外 一 些 命题 是 真 的 还 是 假 的 。 概 
率 论 提供 了 一 套 形式 化 的 规则 ， 可 以 在 给 定 一 些 命题 的 似 然后 ， 计 算 其 他 命题 为 真 
的 似 然 。 
































3.2 ”随机 变量 


随机 变量 (random variable) 是 可 以 随机 地 取 不 同 值 的 变量 。 我 们 通常 用 无 格 
式 字 体 (plain typeface) 中 的 小 写字 母 来 表示 随机 变量 本 身 ， 而 用 手写 体 中 的 小 写字 
母 来 表示 随机 变量 能 够 取 到 的 值 。 例 如 ，zi 和 ro 都 是 随机 变量 x 可 能 的 取 值 。 对 
于 向 量 值 变量 ， 我 们 会 将 随机 变量 写成 x， 它 的 一 个 可 能 取 值 为 z。 就 其 本 身 而 言 ， 
一 个 随机 变量 只 是 对 可 能 的 状态 的 描述 ; 它 必须 伴随 着 一 个 概率 分 布 来 指定 每 个 状 
态 的 可 能 性 。 

随机 变量 可 以 是 离散 的 或 者 连续 的 。 离 散 随机 变量 拥有 有 限 或 者 可 数 无 限 多 的 
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状态 。 注 意 这 些 状 态 不 一 定 非 要 是 整数 ;它们 也 可 能 只 是 一 些 被 命名 的 状态 而 没有 
数值 。 连 续 随机 变量 伴随 着 实数 值 。 


3.3 ”概率 分 布 
概率 分 布 ( probability distribution ) 用 来 描述 随机 变量 或 一 簇 随机 变量 在 每 一 


个 可 能 取 到 的 状态 的 可 能 性 大 小 。 我 们 描述 概率 分 布 的 方式 取决 于 随机 变量 是 离散 
的 还 是 连续 的 。 





3.3.1 ”离散 型 变量 和 概率 质量 函数 


离散 型 变量 的 概率 分 布 可 以 用 概率 质量 函数 ( probability mass function, PMF ) 
1 来 描述 。 我 们 通常 用 大 写字 母 P 来 表示 概率 质量 男 数 。 通 党 每 一 个 随机 变量 都 会 有 
一 个 不 同 的 概率 质量 孔 数 ， 并 有 旦 读者 必须 根据 随机 变量 来 推断 所 使 用 的 PMF， 而 不 
是 根据 丽 数 的 名 称 来 推断 ; 例如 ，P(x) 通常 和 Py) 不 一 样 。 

概率 质量 函数 将 随机 变量 能 够 取得 的 每 个 状态 映射 到 随机 变量 取得 该 状态 的 概 
率 。x=2 的 概率 用 P(x) 来 表示 ， 概 率 为 1 表示 x = x 是 确定 的 ， 概 率 为 0 表示 
x= r 是 不 可 能 发 生 的 。 有 时 为 了 使 得 PMF 的 使 用 不 相互 混淆 ， 我 们 会 明确 写 出 随 
机 变量 的 名 称 : P(x = z)。 有 时 我 们 会 先 定义 一 个 随机 变量 ， 然 后 用 ~ 符号 来 说 明 
它 遵 循 的 分 布 : x ~ P(x). 

概率 质量 水 数 可 以 同时 作用 于 多 个 随机 变量 。 这 种 多 个 变量 的 概率 分 布 被 称 
为 联合 概率 分 布 (joint probability distribution). P(x = x,y = y) ŠIR x = x 和 
y =y 同时 发 生 的 概率 。 我 们 也 可 以 简写 为 P(x,y)。 

如 果 一 个 函数 P 是 随机 变量 x 的 PMF， 必 须 满足 下 面 这 儿 个 条 件 : 





e. P 的 定义 域 必须 是 x 所 有 可 能 状态 的 集合 。 


e Vz € x,0 € P(x) € 1. 不 可 能 发 生 的 事件 概率 为 0， 并 且 不 存在 比 这 概率 更 低 
的 状态 。 类 似 的 ， 能 够 确保 一 定 发 生 的 事件 概率 为 1， 而 且 不 存在 比 这 概率 更 
高 的 状态 。 


PEATE: 国内 有 些 教材 也 将 它 翻译 成 概率 分 布 律 。 














ww ai bbc. com rH E BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
3.3 概率 分 布 51 


e Y, P(x) = 1. 我 们 把 这 条 性 质 称 之 为 归 一 化 的 (normalized )。 如 果 没 有 这 
条 性 质 ， 当 我 们 计算 很 多 事件 其 中 之 一 发 生 的 概率 时 可 能 会 得 到 大 于 1 的 概 
率 。 





例如 ， 考 虑 一 个 离散 型 随机 变量 x 有 上 开 个 不 同 的 状态 。 我 们 可 以 假设 x 是 均匀 
$}% (uniform distribution ) 的 (也 就 是 将 它 的 每 个 状态 视 为 等 可 能 的 )， 通 过 将 它 
的 PMF 设 为 : 
k 
对 于 所 有 的 i 都 成 立 。 我 们 可 以 看 出 这 满足 上 述 成 为 概率 质量 函数 的 条 件 。 因 为 
是 一 个 正 整 数 ， 所 以 上 是 下 的。 我们 也 可 以 看 出 


2_ P(x zi) y r 1, (3.2) 


i 








因此 分 布 也 满足 归 一 化 条 件 。 


3.3.2 ”连续 型 变量 和 概率 密度 函数 


当 我 们 研究 的 对 象 是 连续 型 随机 变量 时 ， 我 们 用 概率 密度 函数 probability 
density function, PDF ) 而 不 是 概率 质量 函数 来 描述 它 的 概率 分 布 。 如 果 一 个 函数 p 
是 概率 密度 函数 ， 必 须 满足 下 面 这 几 个 条 件 : 

e p 的 定义 域 必 须 是 x 所 有 可 能 状态 的 集合 。 
e Yr E€ x, p(x) > 0. 注意 ， 我 们 并 不 要 求 p(z) < 1. 
e f p(a)dx — 1. 

概率 密度 函数 ple) 并 没有 直接 对 特定 的 状态 给 出 概率 ， 相 对 的 ， 它 给 出 了 落 在 
面积 为 6z 的 无 限 小 的 区 域内 的 概率 为 p(x) da. 

我 们 可 以 对 概率 密度 函数 求 积 分 来 获得 点 集 的 真实 概率 质量 。 特 别 地 ，z 落 在 
集合 S 中 的 概率 可 以 通过 ple) 对 这 个 集合 求 积分 来 得 到 。 在 单 变量 的 例子 中 ，z 落 
在 区 间 [a,b] 的 概率 是 fia ,p(x)dzx。 

为 了 给 出 一 个 连续 型 随机 变量 的 PDF 的 例子 , 我 们 可 以 考虑 实数 区 间 上 的 均匀 
分 布 。 我 们 可 以 使 用 函数 w(x;a,5)， 其 中 a fI b 是 区 间 的 端点 且 满 足 b > a。 符 号 
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^" 表示 “以 什么 为 参数 ”; 我 们 把 r 作为 函数 的 自 变量 ，a 和 作为 定义 函数 的 参 
数 。 为 了 确保 区 间 外 没有 概率 ， 我 们 对 所 有 的 £g [a,b], & u(z;a,b) =0. TE [a,b] 
Al, 有 u(z;a,b) = 于。 我 们 可 以 看 出 任何 一 点 都 非 负 。 另 外 ， 它 的 积分 为 1。 我 们 
通常 用 x~ U(a,b) 表示 x 在 [a,b] 上 是 均匀 分 布 的 。 


3.4 边缘 概率 


有 时 候 ， 我 们 知道 了 一 组 变量 的 联合 概率 分 布 ， 但 想 要 了 解 其 中 一 个 子 集 的 概 
率 分 布 。 这 种 定义 在 子 集 上 的 概率 分 布 被 称 为 边缘 概率 分 布 (marginal probability 


distribution )。 


例如 ， 假 设 有 离散 型 随机 变量 x 和 y， 并 且 我 们 知道 P(x,y)。 我 们 可 以 依据 下 
面 的 求 和 法 则 (sum rule ) 来 计算 P(x): 





Vz € x, P(x mcm (3.3) 


边缘 概率 ”的 名 称 来 源 于 手 算 边 缘 概率 的 计算 过 程 。 当 P(x, y) 的 每 个 值 被 写 
在 由 每 行 表示 不 同 的 x 值 ， 每 列表 示 不 同 的 y 值 形 成 的 网 格 中 时 ， 对 网 格 中 的 每 行 
求 和 是 很 自然 的 事情 ， 然 后 将 求 和 的 结果 P) 写 在 每 行 右 边 的 纸 的 边缘 处 。 
对 于 连续 型 变量 ， 我 们 需要 用 积分 替代 求 和 : 





p(x) = fre y)dy. (3.4) 


3.5 ”条 件 概 率 


在 很 多 情况 下 ,我 们 感 兴趣 的 是 某 个 事件 ,在 给 定 其 他 事件 发 生 时 出 现 的 
概率 。 这 种 概率 叫做 条 件 概率 。 我 们 将 给 定 x = 2, y= y 发 生 的 条 件 概 率 记 为 
P(y2y|x 2€). 这 个 条 件 概率 可 以 通过 下 面 的 公式 计算 ， 
Ply =y, x= z) 

P(x = x) 
条 件 概 率 只 在 P(x = x) > 0 时 有 定义 。 我 们 不 能 计算 给 定 在 永远 不 会 发 生 的 事件 上 
条 件 概 率 。 





P(y-y|x-z)- (3.5) 
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这 里 需要 注意 的 是 ， 不 要 把 条 件 概率 和 计算 当 采 用 某 个 动作 后 会 发 生 什 么 相 混 
消 。 假 定 某 个 人 说 德语 ， 那 么 他 是 德国 人 的 条 件 概率 是 非常 高 的 ， 但 是 如 果 随 机 选 
择 的 一 个 人 会 说 德语 ， 他 的 国籍 不 会 因此 而 改变 。 计 算 一 个 行动 的 后 果 被 称 为 干预 
查询 (intervention query )。 干预 查询 属于 因果 模型 (causal modeling ) 的 范畴 ， 我 
们 不 会 在 本 书 中 讨论 。 








3.6 ”条 件 概率 的 链 式 法 则 


任何 多 维 随机 变量 的 联合 概率 分 布 ， 都 可 以 分 解 成 只 有 一 个 变量 的 条 件 概 率 相 
乘 的 形式 : 
P(x, ...,x) = P(x)? APPS | x ?, M xD), (3.6) 


这 个 规则 被 称 为 概率 的 链 式 法 则 (chain rule) 或 者 乘法 法 则 (product rule )。 
它 可 以 直接 从 式 (3.5) 条 件 概 率 的 定义 中 得 到 。 例 如 ， 使 用 两 次 定义 可 以 得 到 





P(a,b,c) = P(a|b,c)P(b,c) 
Pl(b, c) P(b | c)P(c) 
Pla,b,c) = P(a\b,c)P(b | c)P(c). 


3.7. ”独立 性 和 条 件 独立 性 


两 个 随机 变量 x Fly, 如果 它们 的 概率 分 布 可 以 表示 成 两 个 因子 的 乘积 形式 , 并 
且 一 个 因子 只 包含 x 男 一 个 因子 只 包含 y， 我 们 就 称 这 两 个 随机 变量 是 相互 独立 的 
( independent ): 








Vag x,y € y, p(x = xy = y) = p(x = x)p(y = y). (3.7) 


如 果 关 于 x 和 y 的 条 件 概率 分 布 对 于 z 的 每 一 个 值 都 可 以 写成 乘积 的 形式 ， 
那么 这 两 个 随机 变量 x 和 y 在 给 定 随机 变量 z 时 是 条 件 独立 的 (conditionally 


independent ): 








Vz E€ x,y EY z €2Z,px=a2,y=y|z2=2) =p(x=2|z=2z)ply=y|z=2). 
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我 们 可 以 采用 一 种 简化 形式 来 表示 独立 性 和 条 件 独 立 性 : x Ly 表示 x f y 相互 
独立 ，xLy |z 表示 x fl y 在 给 定 z 时 条 件 独立 。 


3.8 期望、 方差 和 协 方差 


PRO f(x) 关于 某 分 布 P(x) 的 期 望 (expectation ) 或 者 期 望 值 (expected 
value) 是 指 ， 当 z 由 P 产生 ，f 作用 于 x BJ, f(x) 的 平均 值 。 对 于 离散 型 随 
机 变量 ， 这 可 以 通过 求 和 得 到 


teple) = Y; Pele), (3.9) 


























sf) = f nf). (3.10) 


当 概 率 分 布 在 上 下 文中 指明 时 ， 我 们 可 以 只 写 出 期 望 作用 的 随机 变量 的 名 称 来 进行 
简化 ， 例 如 Ex[f(z)]。 如 果 期 望 作用 的 随机 变量 也 很 明确 ， 我 们 可 以 完全 不 写 脚 标 ， 
就 像 El (x) RUW, RIE E] 表示 对 方 括号 内 的 所 有 随机 变量 的 值 求 平均 。 
类 似 的 ， 当 没有 此 义 时 ， 我 们 还 可 以 省 略 方 括号 。 

期 望 是 线性 的 ， 例 如 ， 













































































Ex[a.f (x) 二 Bo) = aIE.[f (x) + BE«[g(z)], (3.11) 


其 中 a 和 6 不 依赖 于 z。 
HE (variance ) 衡量 的 是 当 我 们 对 z 依据 它 的 概率 分 布 进行 采样 时 ， 随 机 变 
量 x 的 函数 值 会 呈现 多 大 的 差异 : 























Var(j(z)) = E [(f(«) — E[f (z))?] . (3.12) 
当 方 差 很 小 时 ，f(x) 的 值 形成 的 簇 比较 接近 它们 的 期 望 值 。 方差 的 平方 根 被 称 为 标 
准 差 (standard deviation )。 
HHE (covariance ) 在 某 种 意义 上 给 出 了 两 个 变量 线性 相关 性 的 强度 以 及 这 些 
变量 的 尺度 : 





























Cov(f(z), g(y)) = EL (2) — ELf()]) (ov) — Elg(v)])]- (3.13) 
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协 方差 的 绝对 值 如 果 很 大 则 意味 着 变量 值 变 化 很 大 并 且 它 们 同时 距离 各 自 的 均值 很 
远 。 如 果 协 方差 是 正 的 ， 那 么 两 个 变量 都 倾向 于 同时 取得 相对 较 大 的 值 。 如 果 协 方 
差 是 负 的 ， 那 么 其 中 一 个 变量 倾向 于 取得 相对 较 大 的 值 的 同时 ， 另 一 个 变量 倾向 于 
取得 相对 较 小 的 值 , 反之 亦 然 。 其 他 的 衡量 指标 如 相关 系数 (correlation ) 将 每 个 变 
量 的 贡献 归 一 化 ， 为 了 只 衡量 变量 的 相关 性 而 不 受 各 个 变量 尺度 大 小 的 影响 。 

协 方差 和 相关 性 是 有 联系 的 ， 但 实际 上 不 同 的 概念 。 它 们 是 有 联系 的 ， 因 为 两 
个 变量 如 果 相 互 独立 那么 它们 的 协 方差 为 零 ， 如 果 两 个 变量 的 协 方差 不 为 零 那 么 它 
们 一 定 是 相关 的 。 然 而 ， 独 立 性 又 是 和 协 方差 完全 不 同 的 性 质 。 两 个 变量 如 果 协 方 
差 为 零 , 它们 之 间 一 定 没 有 线性 关系 。 独 立 性 是 比 零 协 方差 的 要 求 更 强 ， 因 为 独立 性 
还 排除 了 非 线性 的 关系 。 两 个 变量 相互 依赖 但 是 具有 零 协 方差 是 可 能 的 。 例 如 ， 假 
设 我 们 首先 从 区 间 [71,1] 上 的 均匀 分 布 中 采样 出 一 个 实数 z。 然 后 我 们 对 一 个 随机 
变量 s 进行 采样 。s 以 3 的 概率 值 为 1， 否 则 为 -1。 我 们 可 以 通过 令 y = sz 来 生成 
一 个 随机 变量 yo WA, x 和 y 不 是 相互 独立 的 ， 因 为 x 完全 决定 了 y 的 尺度 。 然 
而 ，Cov(z,y) = 0. 

随机 向 量 x € R” 的 协 方差 矩阵 (covariance matrix ) 是 一 个 n x n 的 矩阵 ， 并 
日 满足 

















Cov(X)i,; = Cov(xi, x;). (3.14) 


协 方差 矩阵 的 对 角 元 是 方差 : 


Cov(x;,x;) = Var(x;). (3.15) 


3.0 ”常用 概率 分 布 


许多 简单 的 概率 分 布 在 机 器 学 习 的 众多 领域 中 都 是 有 用 的 。 
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3.9.1 Bernoulli fn 


Bernoulli 分 布 ( Bernoulli distribution ) 是 单个 二 值 随机 变量 的 分 布 。 它 由 单 
个 参数 o e [0,1] fl, o 给 出 了 随机 变量 等 于 1 的 概率 。 它 具有 如 下 的 一 些 性 质 : 

















P(x=1)=¢ (3.16) 
P(x =0)=1-¢ (3.17) 
P(x =2) = 61-4) (3.18) 
E b] = ¢ (3.19) 
Varx(x) = (1 = 4) (3.20) 


3.9.2 Multinoulli 分 布 


Multinoulli 分 布 (multinoulli distribution ) 或 者 范畴 分 布 ( categorical dis- 
tribution ) 是 指 在 具有 无 个 不 同 状态 的 单个 离散 型 随机 变量 上 的 分 布 ， 其 中 是 一 
个 有 限 值 。? Multinoulli 分 布 由 向 量 p € [0, 17? 参数 化 ， 其 中 每 一 个 分 量 p; 表示 
第 i 个 状态 的 概率 。 最 后 的 第 个 状态 的 概率 可 以 通过 1— 1 p 给 出 。 注 意 我 们 必 
须 限制 1.p < 1。Multinoulli 分 布 经 常用 来 表示 对 象 分 类 的 分 布 ， 所 以 我 们 很 少 假 
设 状态 工具 有 数值 1 之 类 的 。 因 此 ,我 们 通常 不 需要 去 计算 Multinoulli 分 布 的 随机 
变量 的 期 望 和 方差 。 

Bernoulli 分 布 和 Multinoulli 分 布 足够 用 来 描述 在 它们 领域 内 的 任意 分 布 。 它 们 
能 够 描述 这 些 分 布 ， 不 是 因为 它们 特别 强大 ， 而 是 因为 它们 的 领域 很 简单 ; 它们 可 
以 对 那些 ， 能 人 够 将 所 有 的 状态 进行 枚 举 的 离散 型 随机 变量 进行 建 模 。 当 处 理 的 是 连 
续 型 随机 变量 时 ， 会 有 不 可 数 无 限 多 的 状态 ， 所 以 任何 通过 少量 参数 描述 的 概率 分 
布 都 必须 在 分 布 上 加 以 严格 的 限制 。 








2“multinoulli” 这 个 术语 是 最 近 被 Gustavo Lacerdo 发 明 、 被 Murphy (2012) 推广 的 。Multinoulli 分 布 是 多 
项 式 分 布 (multinomial distribution) 的 一 个 特例 。 多 项 式 分 布 是 {0,...,m}* 中 的 向 量 的 分 布 ， 用 于 表示 当 
对 Multinoulli 分 布 采样 m 次 时 k 个 类 中 的 每 一 个 被 访问 的 次 数 。 很 多 文章 使 用 “多 项 式 分 布 ” 而 实际 上 说 的 
是 Multinoulli 分 布 ， 但 是 他 们 并 没有 说 是 对 n = 1 的 情况 ， 这 点 需要 注意 。 
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3.9.3 ”高 斯 分 布 


实数 上 最 常用 的 分 布 就 是 正 态 分 布 (normal distribution ) ， 也 称 为 高 斯 分 布 


( Gaussian distribution ): 


1 1 
Næm) = cs (zre - Y). (3.21) 





图 3.1 画 出 了 正 态 分 布 的 概率 密度 函数 。 
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图 3.1: TEA AR. TEAS AN (x;y, o?) 呈现 经 典 的 “ 钟 形 曲线 ”的 形状 ， 其 中 中 心 峰 的 x 坐标 
由 给 出 ， 峰 的 宽度 受 o 控制 。 在 这 个 示例 中 ， 我 们 展示 的 是 标准 正 态 分 布 (standard normal 
distribution )， 其 中 u = 0,o = 1. 

















正 态 分 布 由 两 个 参数 控制 ，AE R 和 a € (0,co)。 参 数 /给 出 了 中 心 峰 值 的 坐 
标 ， 这 也 是 分 布 的 均值 : Ex] = 1。 分 布 的 标准 差 用 o 表示 ,方差 用 07 表示 。 

当 我 们 要 对 概率 密度 函数 求 值 时 ， 我 们 需要 对 o 平方 并 且 取 倒数 。 当 我 们 需要 
经 常 对 不 同 参数 下 的 概率 密度 函数 求 值 时 ， 一 种 更 高 效 的 参数 化 分 布 的 万 式 是 使 用 
参数 B € (0, 00)， 来 控制 分 布 的 精度 (precision ) (或 方差 的 倒数 ): 


Nimp = f E o (- 196 - n). (3.22) 


采用 正 态 分 布 在 很 多 应 用 中 都 是 一 个 明智 的 选择 。 当 我 们 由 于 缺乏 关于 某 个 实 
数 上 分 布 的 先 验 知识 而 不 知道 该 选择 怎样 的 形式 时 ， 正 态 分 布 是 默认 的 比较 好 的 选 
择 ， 其 中 有 两 个 原因 。 
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第 一 ， 我 们 想 要 建 模 的 很 多 分 布 的 真实 情况 是 比较 接近 正 态 分 布 的 。 中心 极限 
定理 (central limit theorem ) 说 明 很 多 独立 随机 变量 的 和 近似 服从 正 态 分 布 。 这 意 
味 着 在 实际 中 ， 很 多 复杂 系统 都 可 以 被 成 功 地 建 模 成 正 态 分 布 的 噪声 ， 即 使 系统 可 
以 被 分 解 成 一 些 更 结构 化 的 部 分 。 

第 二 ， 在 具有 相同 方差 的 所 有 可 能 的 概率 分 布 中 ， 正 态 分布 在 实数 上 具有 最 大 
的 不 确定 性 。 因 此 ， 我 们 可 以 认为 正 态 分 布 是 对 模型 加 入 的 先 验 知 识 量 最 少 的 分 布 。 
充分 利用 和 证 明 这 个 想法 需要 更 多 的 数学 工具 ， 我 们 推迟 到 第 19.4.2 节 进行 讲解 。 

正 态 分 布 可 以 推广 到 R^ 空间 ， 这 种 情况 下 被 称 为 多 维 正 态 分 布 (multivariate 
normal distribution )。 它 的 参数 是 一 个 正定 对 称 和 矩阵 X: 





Ns) occae ENE e-m) 829 


参数 /仍然 表示 分 布 的 均值 ， 只 不 过 现在 是 向 量 值 。 参 数 X 给 出 了 分 布 的 协 
方差 矩阵 。 和 单 变量 的 情况 类 似 ， 当 我 们 希望 对 很 多 不 同 参 数 下 的 概率 密度 函数 多 
次 求 值 时 ， 协 方差 矩阵 并 不 是 一 个 很 高 效 的 参数 化 分 布 的 方式 ， 因 为 对 概率 密度 函 
数 求 值 时 需要 对 D 求 逆 。 我 们 可 以 使 用 一 个 精度 矩阵 〈 precision matrix ) 8 进行 蔡 
代 : 





Neu) =| SE exp (—Fe— nye). BA 


我 们 常常 把 协 方 差 矩 阵 固定 成 一 个 对 角 阵 。 一 个 更 简单 的 版 本 是 各 向 同性 
(isotropic ) 高 斯 分 布 ， 它 的 协 方差 矩阵 是 一 个 标量 乘 以 单位 阵 。 





3.9.4 ”指数 分 布 和 和 Laplace 分 布 





在 深度 学 习 中 ， 我 们 经 常会 需要 一 个 在 x = 0 点 处 取得 边界 点 (sharp point) 的 
分 布 。 为 了 实现 这 一 目的 ， 我们 可 以 使 用 指数 分 布 (exponential distribution ): 
p(x; A) = 和 1Lz>o exp(—Az). (3.25) 
指数 分 布 使 用 指示 函数 (indicator function)1z>o 来 使 得 当 z 取 负 值 时 的 概率 为 零 。 


一 个 联系 紧密 的 概率 分 布 是 Laplace 分 布 (Laplace distribution )， 它 允许 我 们 
在 任意 一 点 u 处 设置 概率 质量 的 峰值 





1 = 
Laplace(z; u, y) = 25 exp ( 2 4) : (3.26) 
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3.9.5 Dirac 分 布 和 经 验 分 布 


在 一 些 情况 下 ， 我 们 希望 概率 分 布 中 的 所 有 质量 都 集中 在 一 个 点 上 。 这 可 以 通 

过 Dirac delta 函数 ( Dirac delta function ) ó(x) 定义 概率 密度 函数 来 实现 : 
p(z) = é(z — u). (3.27) 

Dirac delta 函数 被 定义 成 在 除了 0 以 外 的 所 有 点 的 值 都 为 0， 但 是 积分 为 1。Dirac 
delta 函数 不 像 普通 函数 一 样 对 x 的 每 一 个 值 都 有 一 个 实数 值 的 输出 ， 它 是 一 种 不 同 
类 型 的 数学 对 象 ， 被 称 为 广义 函数 (generalized function )， 广 义 函 数 是 依据 积分 性 
质 定义 的 数学 对 象 。 我 们 可 以 把 Dirac delta 函数 想 成 一 系列 函数 的 极限 点 ， 这 一 系 
列 函 数 把 除 0 以 外 的 所 有 点 的 概率 密度 越 变 越 小 。 

通过 把 p(z) 定义 成 6 PRIUS -u 个 单位 ,我们 得 到 了 一 个 在 x = 处 具有 
无 限 窜 也 无 限 高 的 峰值 的 概率 质量 。 

Dirac 分 布 经 常 作为 经 验 分 布 (empirical distribution ) 的 一 个 组 成 部 分 出 现 : 





i ; 
ji( = — M ó(m— a? 3.28 
f(x) A2 tor”) (3.28) 
经 验 分 布 将 概率 密度 LORS m 个 点 zt ol 中 的 每 一 个 ， 这 些 点 是 给 定 的 


数据 集 或 者 采样 的 集合 。 只 有 在 定义 连续 型 随机 变量 的 经 验 分 布 时 ，Dirac delta PK 
数 才 是 必要 的 。 对 于 离散 型 随机 变量 ， 情 况 更 加 简单 : 经 验 分 布 可 以 被 定义 成 一 
个 Multinoulli 分 布 ， 对 于 每 一 个 可 能 的 输入 ， 其 概率 可 以 简单 地 设 为 在 训练 集 上 那 
个 输入 值 的 经验 频率 (empirical frequency ). 

当 我 们 在 训练 集 上 训练 模型 时 ， 我 们 可 以 认为 从 这 个 训练 集 上 得 到 的 经 验 分 
布 指 明了 我 们 采样 来 源 的 分 布 。 关 于 经 验 分 布 另外 一 种 重要 的 观点 是 ， 它 是 训练 数 
据 的 似 然 最 大 的 那个 概率 密度 函数 ( 见 第 5.5 节 )。 





3.9.6 “分 布 的 混合 


通过 组 合 一 些 简单 的 概率 分 布 来 定义 新 的 概率 分 布 也 是 很 常见 的 。 一 种 通用 的 组 
合 方法 是 构造 混合 分 布 mixture distribution )。 混 合 分 布 由 一 些 组 件 (component) 
分 布 构成 。 每 次 实验 ， 样 本 是 由 哪个 组 件 分 布 产 生 的 取决 于 从 一 个 Multinoulli 分 
布 中 采样 的 结果 : 





P(x) = > P(c — i)P(x | c =i), (3.29) 
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这 里 P(c) 是 对 各 组 件 的 一 个 Multinoulli 分 布 。 

我 们 已 经 看 过 一 个 混合 分 布 的 例子 了 : 实 值 变量 的 经 验 分 布 对 于 每 一 个 训练 实 
例 来 说 ， 就 是 以 Dirac 分 布 为 组 件 的 混合 分 布 。 

混合 模型 是 组 合 简 单 概率 分 布 来 生成 更 丰富 的 分 布 的 一 种 简单 策略 。 在 第 十 
六 章 中 ， 我 们 更 加 详细 地 探讨 从 简单 概率 分 布 构建 复杂 模型 的 技术 。 

混合 模型 使 我 们 能 够 一 曾 以 后 会 用 到 的 一 个 非常 重要 的 概念 一 一 潜 变 量 
(latent variable )。 潜 变量 是 我 们 不 能 直接 观测 到 的 随机 变量 。 混 合 模 型 的 组 件 标 
YVES c 就 是 其 中 一 个 例子 。 潜 变量 在 联合 分 布 中 可 能 和 x 有 关 ， 在 这 种 情况 下 ， 
P(x,c) = P(x | c)P(c)。 潜 变量 的 分 布 P(c) 以 及 关联 潜 变 量 和 观测 变量 的 条 件 分 布 
P(x|c), 共同 决定 了 分 布 P(x) BEAR, 尽管 描述 P(x) 时 可 能 并 不 需要 潜 变 量 。 潜 
变量 将 在 第 16.5 节 中 深入 讨论 。 

一 个 非常 强大 且 常 见 的 混合 模型 是 高 斯 混合 模型 ( Gaussian Mixture Model ), 
它 的 组 件 p(x | c = i) 是 高 斯 分 布 。 每 个 组 件 都 有 各 自 的 参数 ,均值 pO 和 协 方差 矩 
阵 马 0)。 有 一 些 混合 可 以 有 更 多 的 限制 。 例 如 ,， 协 方差 矩阵 可 以 通过 DO = svi 的 
形式 在 组 件 之 间 共 享 参数 。 和 单个 高 斯 分 布 一 样 ， 高 斯 混合 模型 有 时 会 限制 每 个 组 
件 的 协 方差 矩阵 为 对 角 的 或 者 各 向 同性 的 (标量 乘 以 单位 矩阵 )。 

除了 均值 和 协 方差 以 外 ， 高 斯 混合 模型 的 参数 指明 了 给 每 个 组 件 i 的 先 验 概率 
(prior probability) a; = P(c = 让 。“ 先 验 ” 一 词 表 明了 在 观测 到 x 之 前 传递 给 模 
型 关于 c 的 信念 。 作 为 对 比 ，P(c | x) 是 后 验 概率 (posterior probability )， 因 为 它 
是 在 观测 到 x 之 后 进行 计算 的 。 高 斯 混合 模型 是 概率 密度 的 万 能 近似 器 (universal 
approximator )， 在 这 种 意义 下 ， 任 何平 滑 的 概率 密度 都 可 以 用 具有 足够 多 组 件 的 高 
斯 混合 模型 以 任意 精度 来 逼近 。 

图 3.2 演 示 了 某 个 高 斯 混合 模型 生成 的 样本 。 
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图 3.2: 来 自 高 斯 混合 模型 的 样本 。 在 这 个 示例 中 ， 有 三 个 组 件 。 从 左 到 右 ， 第 一 个 组 件 具 有 各 向 
同性 的 协 方 差 矩阵 ， 这 意味 着 它 在 每 个 方向 上 具有 相同 的 方差 。 第 二 个 组 件 具有 对 角 的 协 方差 矩 
阵 ， 这 意味 着 它 可 以 沿 着 每 个 轴 的 对 齐 方向 单独 控制 方差 。 该 示例 中 ， 沿 着 zz 轴 的 方差 要 比 沿 着 
v 轴 的 方差 大 。 第 三 个 组 件 具 有 满 秩 的 协 方差 矩阵 ， 使 它 能 够 沿 着 任意 基 的 方向 单独 地 控制 方差 。 



























































3.10 ”常用 函数 的 有 用 性 质 


某 些 函数 在 处 理 概率 分 布 时 经 常会 出 现 ， 尤 其 是 深度 学 习 的 模型 中 用 到 的 概率 
分 布 。 

其 中 一 个 函数 是 logistic sigmoid 函数 : 

1 

1 十 exp( 一 zZ) 
logistic sigmoid 函数 通常 用 来 产生 Bernoulli 分 布 中 的 参数 5， 因 为 它 的 范围 是 
(0,1)， 处 在 o 的 有 效 取 值 范围 内 。 图 3.3 给 出 了 sigmoid 函数 的 图 示 。sigmoid 函数 
在 变量 取 绝 对 值 非常 大 的 正 值 或 负 值 时 会 出 现 饱 和 (saturate ) 现象 ,意味 着 函数 会 
变 得 很 平 ， 并 且 对 输入 的 微小 改变 会 变 得 不 敏感 。 

男 外 一 个 经 常 遇 到 的 函数 是 softplus 函数 (softplus function ) (Dugas et al., 
2001a): 


a(x) = (3.30) 


C(z) = log(1 + exp(z)). (3.31) 


softplus K% LA ASR ^E TE AS oP 8 AY B 和 c 参数 ， 因 为 它 的 范围 是 (0,co)。 当 处 
HES sigmoid 函数 的 表达 式 时 它 也 经 常 出 现 。softplus pA RUF EAT 
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1.0 


0.8 


o(z) 


一 10 一 5 0 5 10 


图 3.3: logistic sigmoid KIŠ 


函数 的 平滑 ( 或 “软化 ”) 形式 ， 这 个 函数 是 
十 


2Z = max(0, x). (3.32) 


图 3.4 给 出 了 softplus 函数 的 图 示 。 


10 


C(x) 


图 3.4: softplus 函数 。 
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下 面 一 些 性 质 非 常 有 用 ， 你 可 能 要 记 下 来 : 








eme ESO B39 

L o(a) = 0(z)(1 — o(a) (3.34) 
1— o(z) = o(—2) 3.35) 
loge(z) = -C(-2) (3.36) 
Lele) = o(a) (3.37) 

Vax € (0,1), o~t () = tos (A) (3.38) 
Vx > 0, C7! (x) = log(exp(z) — 1) (3.39) 
ote) =f otav (3.40) 

(a) 72) =2 (3.41) 


PRA. o7 (ar) 在 统计 学 中 被 称 为 分 对 数 (logit )， 但 这 个 函数 在 机 需 学 习 中 很 少 用 到 。 

式 (3.41) 为 函数 名 “softplus” 提 供 了 其 他 的 正当 理由 。softplus 函数 被 设计 成 正 
部 函数 (positive part function ) 的 平滑 版 本 ， 这 个 正 部 函数 是 指 r^ = max{0, x}。 
与 正 部 函数 相对 的 是 负 部 函数 (negative part function) z- = max(0, —r). Ag r3X 
得 类 似 负 部 函数 的 一 个 平滑 函数 ， 我 们 可 以 使 用 5C(-z)。 就 像 z 可 以 用 它 的 正 部 和 
负 部 通过 等 式 ot — v^ = c 恢复 一 样 ， 我 们 也 可 以 用 同样 的 方式 对 C(x) 和 (一 z) 
进行 操作 ， 就 像 式 (3.41) 中 那样 。 





3.11” 贝 叶 斯 规则 


我 们 经 常会 需要 在 已 知 P(y | x) 时 计算 P(x | 四。 幸运 的 是 ， 如 果 还 知道 P(x), 
我 们 可 以 用 贝 叶 斯 规则 ( Bayes’ rule) 来 实现 这 一 目的 : 
P(x)P(y | x) 

P(y) 
注意 到 P(y) 出 现在 上 面 的 公式 中 ， 它 通常 使 用 P(y) = 5, P(y | xz) P(z) 来 计算 ， 
所 以 我 们 并 不 需要 事先 知道 P(y) 的 信息 。 


P(x|y) = (3.42) 
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贝 叶 斯 规则 可 以 从 条 件 概 率 的 定义 直接 推导 得 出 , 但 我 们 最 好 记 住 这 个 公式 的 名 
字 , 因为 很 多 文献 通过 名 字 来 引用 这 个 公式 。 这 个 公式 是 以 Reverend Thomas Bayes 
来 命名 的 , 他 是 第 一 个 发 现 这 个 公式 特例 的 人 。 这 里 介绍 的 一 般 形式 由 Pierre-Simon 
Laplace 独立 发 现 。 


3.12 ”连续 型 变量 的 技术 细节 


连续 型 随机 变量 和 概率 密度 阴 数 的 深入 理解 需要 用 到 数学 分 支 测度 论 ( measure 
theory ) 的 相关 内 容 来 扩展 概率 论 。 测 度 论 超 出 了 本 书 的 范畴 ， 但 我 们 可 以 简要 勾勒 
一 些 测度 论 用 来 解决 的 问题 。 


在 第 3.3.2 节 中 ， 我 们 已 经 看 到 连续 型 向 量 值 随机 变量 x 落 在 某 个 集合 S 中 的 
概率 是 通过 p(x) 对 集合 S 积分 得 到 的 。 对 于 集合 S 的 一 些 选 择 可 能 会 引起 悖 论 。 例 
如 ， 构 造 两 个 集合 S, Fl S2 使 得 plx € 81) | plx € S2) > 1J H. S: NS = 是 可 能 
的 。 这 些 集 合 通常 是 大 量 使 用 了 实数 的 无 限 精度 来 构造 的 ， 例 如 通过 构造 分 形 形 状 
(fractal-shaped) 的 集合 或 者 是 通过 有 理 数 相关 集合 的 变换 定义 的 集合 。? 测度 论 的 

一 个 重要 贡献 就 是 提供 了 一 些 集合 的 特征 使 得 我 们 在 计算 概率 时 不 会 sal 悖 论 。 在 
本 书 中 ， 我 们 只 对 相对 简单 的 集合 进行 积分 ， 所 以 测度 论 的 这 个 方面 不 会 成 为 一 个 
相关 考虑 。 


对 于 我 们 的 目的 , 测度 论 更 多 的 是 用 来 描述 那些 适用 于 RR* 上 的 大 多 数 点 ， 却 不 
适用 于 一 些 边界 情况 的 定理 。 测 度 论 提供 了 一 种 严格 的 方式 来 描述 那些 非常 微小 bi 
点 集 。 这 种 集合 被 称 为 “ 零 测度 (measure zero) ”的 。 我 们 不 会 在 本 书 中 给 出 这 
概念 的 正式 定义 。 然 而 ， 直 观 地 理解 这 个 概念 是 有 用 的 ， ne 
我 们 的 度量 空间 中 个 下 有 任何 的 体积 A. fun, TE R 空间 中 ， 一 条 直线 的 测度 为 零 ， 
而 填充 的 多 边 形 具有 正 的 测度 。 类 似 的 ， 一 个 单独 的 点 的 测度 为 T. eT 
度 集 的 并 仍然 是 零 测 度 的 (所 以 所 有 有 理 数 构成 的 集合 测度 为 零 )。 


另外 一 个 有 用 的 测度 论 中 的 术语 是 “几乎 处 处 (almost everywhere) ”。 某 个 性 
质 如 果 是 几乎 处 处 都 成 立 的 ， 那 么 它 在 整个 空间 中 除了 一 个 测度 为 零 的 集合 以 外 都 
是 成 立 的 。 因 为 这 些 例外 只 在 空间 中 占有 极其 微小 的 量 ， 它 们 在 多 数 应 用 中 都 可 以 
被 放心 地 和 忽略。 概率 论 中 的 一 些 重 要 结果 对 于 离散 值 成 立 但 对 于 连续 值 只 能 是 “了 几 
乎 处 处 ”成 立 。 
?Banach-Tarski 定理 给 出 了 这 类 集合 的 一 个 有 趣 的 例子 。 译 者 注 : 我 们 这 里 把 “the set of rational numbers" ifi 
译 成 “有 理 数 相关 集合 ”， 理 解 为 “一 些 有 理 数 组 成 的 集合 ”， 如 果 直 接 用 后 面 的 翻译 读 起 来 会 比较 擂 口 。 
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连续 型 随机 变量 的 另 一 技术 细节 ， 涉 及 到 处 理 那 种 相互 之 间 有 确定 性 函数 关系 
的 连续 型 变量 。 假 设 我 们 有 两 个 随机 变量 x 和 y 满足 y= g(x), FER 9 是 可 道 的 、 
连续 可 微 的 函数 。 可 能 有 人 会 想 py(y) = p«(g (y). TEASE ERIE 
举 一 个 简单 的 例子 ， 假 设 我 们 有 两 个 标量 值 随机 变量 x 和 y， 并 且 满 足 y = % 
以 及 x ~ U(0,1)。 如 果 我 们 使 用 Pauly ) =px(2y), ABA p, 除了 区 间 [0, 2] 以 外 都 为 
0， 并 且 在 这 个 区 间 上 的 值 为 1。 这 意味 着 


] e = : (3.43) 


而 这 违背 了 概率 密度 的 定义 (积分 为 1)。 这 个 常见 错误 之 所 以 错 是 因为 它 没 有 考虑 
到 引入 函数 9 后 造成 的 空间 变形 。 回 忆 一 下 ，z 落 在 无 穷 小 的 体积 为 yz 的 区 域内 的 
概率 为 p(z)6z。 因 为 9 可 能 会 扩展 或 者 压缩 空间 , 在 x 空间 内 的 包围 着 z 的 无 穷 小 
体积 在 y 空间 中 可 能 有 不 同 的 体积 。 


为 了 看 出 如 何 改正 这 个 问题 ， 我 们 回 到 标量 值 的 情况 。 我 们 需要 保持 下 面 这 个 














性 质 : 

Ipy(g(x))du| = [ps (x)d«|. (3.44) 
求解 上 式 ， 我 们 得 到 

py(y) = p«(9 ^ (y) " (3.45) 
或 者 等 价 地 ， 

pela) =pl) |S) (3.46) 





在 高 维 空间 中 ， n Qe X Jacobian 4Bf& (Jacobian matrix ) 的 行列 式 一 一 
矩阵 的 每 个 元 素 为 Jij = 咒 。 因 此 ， 对 于 实 值 向 量 > 和 y, 


pala) = plola) [aec (2569) (3.47) 








信息 论 是 应 用 数学 的 一 个 分 支 ， 主 要 研究 的 是 对 一 个 信号 包含 信息 的 多 少 进行 
量化 。 它 最 初 被 发 明 是 用 来 研究 在 一 个 含有 噪声 的 信道 上 用 离散 的 字母 表 来 发 送 消 
息 ， 例 如 通过 无 线 电 传输 来 通信 。 在 这 种 情况 下 ， 信 息 论 告诉 我 们 如 何 设计 最 优 编 
码 ， 以 及 计算 从 一 个 特定 的 概率 分 布 上 采样 得 到 、 使 用 多 种 不 同 编码 机 制 的 消息 的 
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期 望 长 度 。 在 机 带 学 习 中 ， 我们 也 可 以 把 信息 论 应 用 在 连续 型 变量 上 ， 而 信息 论 中 
一 些 消息 长 度 的 解释 不 怎么 使 用 ,信息论 是 电子 工程 和 计算 机 科学 中 许多 领域 的 
基础 。 在 本 书 中 ,我 们 主要 使 用 信息 论 的 一 些 关键 思想 来 描述 概率 分 布 或 者 量化 概 
率 分 布 之 间 的 相似 性 。 有 关 信 息 论 的 更 多 细节 ， 参 见 Cover and Thomas (2006) 或 
者 MacKay (2003)。 

言 息 论 的 基本 想法 是 一 个 不 太 可 能 的 事件 居然 发 生 了 ， 要 比 一 个 非常 可 能 的 事 
件 发 生 ， 能 提供 更 多 的 信息 。 消 息 说 :“ 今 天 早上 太阳 升 起 ”信息 量 是 如 此 之 少 以 至 
于 没有 必要 发 送 ， 但 一 条 消息 说 :“ 今 天 早上 有 日 食 ” 信息 量 就 很 丰富 。 

我 们 想 要 通过 这 种 基本 想法 来 量化 信息 。 特 别 地 ， 














。 非常 可 能 发 生 的 事件 信息 量 要 比较 少 ， 并 且 极 端 情况 下 ， 确 保 能 够 发 生 的 事件 
应 该 没有 信息 量 。 


。 较 不 可 能 发 生 的 事件 具有 更 高 的 信息 量 。 


。 独立 事件 应 具有 增 量 的 信息 。 例 如 ， 投 掷 的 硬币 两 次 正面 朝 上 传递 的 信息 量 ， 
应 该 是 投掷 一 次 硬币 正面 朝 上 的 信息 量 的 两 倍 。 





为 了 满足 上 述 三 个 性 质 ， 我 们 定义 一 个 事件 x = x 的 自信 息 (self-information ) 

为 

I(x) = — log P(x). (3.48) 
在 本 书 中 ， 我 们 总 是 用 log 来 表示 自然 对 数 ， 其 底数 为 e。 因 此 我 们 定义 的 I(x) 单 
位 是 奈 特 (nats )。 一 奈 特 是 以 : 的 概率 观测 到 一 个 事件 时 获得 的 信息 量 。 其 他 的 材 
料 中 使 用 底数 为 2 的 对 数 ， 单 位 是 比特 (bit) 或 者 香农 ( shannons ); 通过 比特 度 
量 的 信息 只 是 通过 奈 特 度量 信息 的 第 数 倍 。 

M x 是 连续 的 ， 我 们 使 用 类 似 的 关于 信息 的 定义 ,但 有 些 来 源 于 离散 形式 的 性 
质 就 丢失 了 。 例如 , 一 个 具有 单位 密度 的 事件 信息 量 仍然 为 0, 但 是 不 能 保证 它 一 定 
发 生 。 

自信 息 只 处 理 单个 的 输出 。 我 们 可 以 用 香农 (Shannon entropy ) 来 对 整个 概 
率 分 布 中 的 不 确定 性 总 量 进行 量化 : 


A(x) = EX. p|I(z)] = —Ex~ plog P(x)], (3.49) 


也 记 作 H(P). RAZ, 一 个 分 布 的 香农 炉 是 指 遵 循 这 个 分 布 的 事件 所 产生 的 期 望 信 
息 总 量 。 它 给 出 了 对 依据 概率 分 布 P 生成 的 符号 进行 编码 所 需 的 比特 数 在 平均 意义 
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上 的 下 界 ( 当 对 数 底数 不 是 2 时 , 单位 将 有 所 不 同 )。 那 些 接近 确定 性 的 分 布 (输出 几 
乎 可 以 确定 ) BS BURA; 那些 接近 均匀 分 布 的 概率 分 布 具 有 较 高 的 炉 。 图 3.5 给 
出 了 一 个 说 明 。 当 x 是 连续 的 ， 香 农 炉 被 称 为 PASTE] ( differential entropy )。 
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图 3.5: —fEBGELAE t BA eR. AEH T EREE 2e URL EUG BIR AE, E 
BEIJA 85448 Ee A ee IARE. ORE p， 表 示 二 值 随机 变量 等 于 1 BUBESEL A 
由 (p— 1)log(1— p) — plogp 给 出 。 当 pp 接近 0 HT, 分布 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 
0. 74 p 接近 1 时 , 分 布 也 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 1。 当 p= 0.5 f, MERKKI, 
因为 分 布 在 两 个 结果 CO 和 1) 上 是 均匀 的 。 















































如 果 我 们 对 于 同一 个 随机 变量 x 有 两 个 单独 的 概率 分 布 P(x) 和 Q(x), FETAL 
以 使 用 KL 散 度 (Kullback-Leibler (KL) divergence ) 来 衡量 这 两 个 分 布 的 差异 : 


a = E,.pllog P(x) —logQ(x)]. (3.50) 


在 离散 型 变量 的 情况 下 ，KL 散 度 衡量 的 是 ， 当 我 们 使 用 一 种 被 设计 成 能 够 使 
得 概率 分 布 Q 产生 的 消息 的 长 度 最 小 的 编码 ， 发 送 包 含 由 概率 分 布 已 产生 的 符号 
的 消息 时 ,所 需要 的 额外 信息 量 (如 果 我 们 使 用 底数 为 2 的 对 数 时 ,信息 量 用 比特 衡 
量 ， 但 在 机 噩 学 习 中 ,我们 通常 用 奈 特 和 自然 对 数 。) 

KL 散 度 有 很 多 有 用 的 性 质 ， 最 重要 的 是 它 是 非 负 的 。KL 散 度 为 0 当 且 仅 当 
P 和 Q 在 离散 型 变量 的 情况 下 是 相同 的 分 布 ， 或 者 在 连续 型 变量 的 情况 下 是 “几乎 
处 处 ”相同 的 。 因 为 KL 散 度 是 非 负 的 并 且 衡 量 的 是 两 个 分 布 之 间 的 差异 ， 它 经 常 
被 用 作 分 布 之 间 的 某 种 距离 。 然 而 ， 它 并 不 是 真 的 距离 因为 它 不 是 对 称 的 : 对 于 某 
He PHQ, D«(PlIQ) 关 DkrL(QIIP)。 这 种 非 对 称 性 意味 着 选择 Prr(PIIQ) 还 是 





























DkL(P|I|IQ) = Exp 区 
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DkL(QIIP) 影响 很 大 。 更 多 细节 可 以 看 图 3.6 。 


q* = argmin, DkL (pllg) q* = argmin, Dri (q||p) 


Probability Density 
Probability Density 























图 3.6: KL 散 度 是 不 对 称 的 。 假 设 我 们 有 一 个 分 布 p(z)， 并 且 和 希望 用 另 一 个 分 布 9(z) 来 近似 它 。 
我 们 可 以 选择 最 小 化 Prr(plla) 或 最 小 化 Dki(q||p)。 为 了 说 明 每 种 选择 的 效果 ,我 们 令 p 是 
个 高 斯 分 布 的 混合 ， 令 q 为 单个 高 其 分布。 选择 使 用 KL 散 度 的 哪个 方向 是 取决 于 问题 的 。 一 些 
应 用 需要 这 个 近似 分 布 g 在 真实 分 布 p 放置 高 概率 的 所 有 地 方 都 放置 高 概率 ， 而 其 他 应 用 需要 这 
个 近似 分 布 q 在 真实 分 布 p 放置 低 概率 的 所 有 地 方 都 很 少 放置 高 概率 。KL 散 度 方向 的 选择 反映 
了 对 于 每 种 应 用 ， 优 先 考 虑 哪 一 种 选择 。( 左 ) 最 小 化 Dex (pl|l9) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 q 使 得 它 在 p 具有 高 概率 的 地 方 具有 高 概率 。 当 p 具有 多 个 峰 时 ，g 选择 将 这 些 峰 模糊 到 
一 起 ， 以 便 将 高 概率 质量 放 到 所 有 峰 上 。( 右 ) 最 小 化 Drr(dllp) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 q 使 得 它 在 p 具有 低 概率 的 地 方 具有 低 概率 。 当 p 具有 多 个 峰 并 且 这 些 峰 间隔 很 宽 时 ， 如 
该 图 所 示 ， 最 小 化 KL 散 度 会 选择 单个 峰 ， 以 避免 将 概率 质量 放置 在 p 的 多 个 峰之 间 的 低 概率 区 
域 中 。 这 里 ， 我 们 说 明 当 q 被 选择 成 强调 左边 峰 时 的 结果 。 我 们 也 可 以 通过 选择 右边 峰 来 得 到 KL 
散 度 相同 的 值 。 如 果 这 些 峰 没有 被 足够 强 的 低 概率 区 域 分 离 ， 那么 KL 散 度 的 这 个 方向 仍然 可 能 
选择 模糊 这 些 峰 。 
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一 个 和 KL 散 度 密 切 联系 的 量 是 SECHS (cross-entropy ) H(P,Q) = H(P) + 
Drr(PIIQ@)， 它 和 KL 散 度 很 像 但 是 缺少 左边 一 项 : 











H(P,Q) = —E,. plogQ(z). (3.51) 





针对 Q Tg] MEE IS TT ME KL 散 度 ， 因 为 Q 并 不 参与 被 省 略 的 那 一 项 。 
当 我 们 计算 这 些 量 时 ， 经 常会 遇 到 Olog 0 这 个 表达 式 。 按 照 惯例 ， 在 信息 论 中， 
我 们 将 这 个 表达 式 处 理 为 jms ,o x log a = 0. 
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3.14 ”结构 化 概率 模型 


机 需 学 习 的 算法 经 常会 涉及 到 在 非常 多 的 随机 变量 上 的 概率 分 布 。 通 常 , 这 些 概 
率 分 布 涉及 到 的 直接 相互 作用 都 是 介 于 非常 少 的 变量 之 间 的 。 使 用 单个 函数 来 描述 
整个 联合 概率 分 布 是 非常 低 效 的 (无 论 是 计算 上 还 是 统计 上 )。 

我 们 可 以 把 概率 分 布 分 解 成 许多 因子 的 乘积 形式 ， 而 不 是 使 用 单一 的 函数 来 表 
示 概 率 分 布 。 例 如 , 假设 我 们 有 三 个 随机 变量 a,b 和 c, 并 且 a 影响 b 的 取 值 , b 影 
m c 的 取 值 ， 但 是 a 和 < 在 给 定 b 时 是 条 件 独立 的 。 我 们 可 以 把 全 部 三 个 变量 的 概 
率 分 布 重新 表示 为 两 个 变量 的 概率 分 布 的 连 乘 形式 : 


p(a, b, c) = p(a)p(b | a)p(c | b). (3.52) 











这 种 分 解 可 以 极 大 地 减少 用 来 描述 一 个 分 布 的 参数 数量 。 每 个 因子 使 用 的 参数 
数目 是 它 的 变量 数目 的 指数 倍 。 这 意味 着 ， 如 果 我 们 能 够 找到 一 种 使 每 个 因子 分 布 
具有 更 少 变量 的 分 解 方法 ， 我 们 就 能 极 大 地 降低 表示 联合 分 布 的 成 本 。 

我 们 可 以 用 图 来 描述 这 种 分 解 。 这 里 我 们 使 用 的 是 图 论 中 的 “图 ”的 概念 : 由 
一 些 可 以 通过 边 互 相连 接 的 顶点 的 集合 构成 。 当 我 们 用 图 来 表示 这 种 概率 分 布 的 分 
解 ， 我 们 把 它 称 为 结构 化 概率 模型 (structured probabilistic model) 或 者 图 模型 
(graphical model )。 


有 两 种 主要 的 结构 化 概率 模型 : 有 向 的 和 无 向 的 。 两 种 图 模型 都 使 用 图 9， 其 中 
图 的 每 个 节点 对 应 着 一 个 随机 变量 ,连接 两 个 随机 变量 的 边 意味 着 概率 分 布 可 以 表 
示 成 这 两 个 随机 变量 之 间 的 直接 作用 。 

有 向 (directed ) 模型 使 用 带 有 有 向 边 的 图 ， 它 们 用 条 件 概率 分 布 来 表示 分 解 ， 
就 像 上 面 的 例子 。 特 别 地 ， 有 向 模型 对 于 分 布 中 的 每 一 个 随机 变量 x; 都 包含 着 一 个 
影响 因子 ， 这 个 组 成 x; 条 件 概率 的 影响 因子 被 称 为 x; 的 父 节 点 ， 记 为 Pac (xi): 


p(x) = [ [pC | Pag(x)). (3.53) 


2 








图 3.7 给 出 了 一 个 有 向 图 的 例子 以 及 它 表示 的 概率 分 布 的 分 解 。 

无 向 (undirected ) 模型 使 用 带 有 无 向 边 的 图 它们 将 分 解 表示 成 一 组 函数 ; 不 
像 有 向 模型 那样 ， 这 些 函 数 通常 不 是 任何 类 型 的 概率 分 布 。9 中 任何 满足 两 两 之 
间 有 边 连 接 的 顶点 的 集合 被 称 为 团 。 无 向 模型 中 的 每 个 团 CO 都 伴随 着 一 个 因子 
g0(CO9)。 这 些 因子 仅仅 是 函数 ， 并 不 是 概率 分 布 。 每 个 因子 的 输出 都 必须 是 非 负 
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Quo 
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图 3.7: 关于 随机 变量 a,b,c,d fU e 的 有 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 








p(a, b, c, d, e) = p(a)p(b | a)p(c | a, b)p(d | b)p(e | c). (3.54) 





该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 c 直接 相互 影响 , 但 a 和 e 只 有 通 
ii c 间接 相互 影响 。 





的 ， 但 是 并 没有 像 概率 分 布 中 那样 要 求 因子 的 和 或 者 积分 为 1。 

随机 变量 的 联合 概率 与 所 有 这 些 因 子 的 乘积 成 比例 〈 proportional ) 一 一 意味 着 
因子 的 值 越 大 则 可 能 性 越 大 。 当 然 ， 不 能 保证 这 种 乘积 的 求 和 为 1。 所 以 我 们 需要 除 
以 一 个 归 一 化 常数 Z 来 得 到 归 一 化 的 概率 分 布 ， 归 一 化 常数 2 被 定义 为 o 函数 乘 
积 的 所 有 状态 的 求 和 或 积分 。 概 率 分 布 为 : 





P(x) = b y] «9 (c9). (3.55) 


图 3.8 给 出 了 一 个 无 向 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 

请 记 住 ， 这 些 图 模型 表示 的 分 解 仪 仅 是 描述 概率 分 布 的 一 种 语言 。 它 们 不 是 互 
相 排 斥 的 概率 分 布 族 。 有 向 或 者 无 向 不 是 概率 分 布 的 特性 ; 它 是 概率 分 布 的 一 种 特 
Ik HIE (description) 所 具有 的 特性 ， 而 任何 概率 分 布 都 可 以 用 这 两 种 方式 进行 描 


述 。 





在 本 书 第 一 部 分 和 第 二 部 分 中 ,我们 仅仅 将 结构 化 概率 模型 视 作 一 门 语言 ,来 
描述 不 同 的 机 器 学 习 算 法 选择 表示 的 直接 的 概率 关系 。 在 讨论 研究 课题 之 前 ， 读 者 
不 需要 更 深入 地 理解 结构 化 概率 模型 。 在 第 三 部 分 的 研究 课题 中 ， 我 们 将 更 为 详尽 
地 探讨 结构 化 概率 模型 。 

本 章 复习 了 概率 论 中 与 深度 学 习 最 为 相关 的 一 些 基 本 概念 。 我 们 还 剩 下 一 些 基 
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OQ 
afo 
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图 3.8: 关于 随机 变量 a,b, c, d 和 的 无 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 








pla, b,c, d,e) = #0 (a, b, c)9® (b, d) 669 (c, e) (3.56) 





该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 c 直接 相互 影响 , 但 a 和 e 只 有 通 
过 间接 相互 影响 。 





本 的 数学 工具 需要 讨论 : 数值 方法 。 
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第 四 章 ”数值 计算 


机 噩 学 习 算 法 通常 需要 大 量 的 数值 计算 。 这 通常 是 指 通过 迭代 过 程 更 新 解 的 佑 
计 值 来 解决 数学 问题 的 算法 ， 而 不 是 通过 解析 过 程 推导 出 公式 来 提供 正确 解 的 方法 。 
常见 的 操作 包括 优化 ( 找到 最 小 化 或 最 大 化 了 消 数值 的 参数 ) 和 线性 方程 组 的 求解 。 
对 数字 计算 机 来 说 实数 无 法 在 有 限 内 存 下 精确 表示 ， 因 此 仪 仅 是 计算 涉及 实数 的 函 
数 也 是 困难 的 。 


4.1 Emi 


连续 数学 在 数字 计算 机 上 的 根本 困难 是 ， 我 们 需要 通过 有 限 数量 的 位 模式 来 表 
示 无 限 多 的 实数 。 这 意味 着 我 们 在 计算 机 中 表示 实数 时 ， 几 乎 总 会 引入 一 些 近 似 误 
差 。 在 许多 情况 下 ， 这 仅仅 是 售 人 误差 。 售 人 误差 会 导致 一 些 问题 ， 特 别 是 当 许多 
操作 复合 时 ， 即 使 是 理论 上 可 行 的 算法 ， 如 果 在 设计 时 没有 考虑 最 小 化 舍 人 误差 的 
累积 ， 在 实践 时 也 可 能 会 导致 算法 失效 。 

一 种 极 具 毁 灭 性 的 舍 人 误差 是 下 洪 ( underflow )。 当 接近 零 的 数 被 四 舍 五 人 为 
零 时 发 生 下 洪 。 许 多 函数 在 其 参数 为 零 而 不 是 一 个 很 小 的 正 数 时 才 会 表现 出 质 的 不 
同 。 例 如 ， 我 们 通常 要 避免 被 零 除 (一 些 软件 环境 将 在 这 种 情况 下 抛 出 异常 ， 有 些 
会 返回 一 个 非 数字 (not-a-number, NaN) 的 占 位 符 ) 或 避免 取 零 的 对 数 (这 通常 被 
视 为 -co， 进 一 步 的 算术 运算 会 使 其 变 成 非 数 字 )。 

另 一 个 极 具 破 坏 力 的 数值 错误 形式 是 上 洪 (overflow )。 当 大 量 级 的 数 被 近似 为 
oo 或 —oo 时 发 生 上 洪 。 进 一 步 的 运算 通常 会 导致 这 些 无 限 值 变 为 非 数字 。 

必须 对 上 洪 和 下 洲 进 行 数值 稳定 的 一 个 例子 是 softmax 函数 (softmax func- 
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tion )。softmax 因数 经 常用 于 预测 与 Multinoulli 分 布 相 关联 的 概率 ， 定 义 为 


exp(z;) 
NCC (4.1) 


考虑 一 下 当 所 有 n 都 等 于 某 个 常数 c 时 会 发 生 什 么 。 从 理论 分 析 上 说 ， 我 们 可 以 发 
现 所 有 的 输出 都 应 该 为 二。 从 数值 计算 上 说 ， 当 c 量 级 很 大 时 , 这 可 能 不 会 发 生 。 如 
AR oc 是 很 小 的 负数 ,exp(c) 就 会 下 游 。 这 意味 着 softmax 函数 的 分 母 会 变 成 0， 所 以 
最 后 的 结果 是 未 定义 的 。 当 c 是 非常 大 的 正 数 时 ，exp(c) 的 上 溢 再 次 导致 整个 表达 
式 未 定义 。 这 两 个 困难 能 通过 计算 softmax(z) 同时 解决 ， 其 中 z= g- maxim. füj 
单 的 代数 计算 表明 ，softmax 解析 上 的 函数 值 不 会 因为 从 输入 向 量 减 去 或 加 上 标量 
而 改变 。 减 去 max; zi; 导致 exp 的 最 大 参数 为 0， 这 排除 了 上 溢 的 可 能 性 。 同 样 地 ， 
分 母 中 至 少 有 一 个 值 为 1 的 项 ， 这 就 排除 了 因 分 母 下 洪 而 导致 被 零 除 的 可 能 性 。 

还 有 一 个 小 问题 。 分 子 中 的 下 浇 仍 可 以 导致 整体 表达 式 被 计算 为 零 。 这 意味 着 ， 
如 果 我 们 在 计算 log softmax(z) 时 ， 先 计算 softmax 再 把 结果 传 给 log 函数 ， 会 错 
误 地 得 到 一 00。 相反 ， 我 们 必须 实现 一 个 单独 的 函数 ， 并 以 数值 稳定 的 方式 计算 
log softmax。 我 们 可 以 使 用 相同 的 技巧 来 稳定 log softmax PRA. 

在 大 多 数 情况 下 ， 我 们 没有 明确 地 对 本 书 描述 的 各 种 算法 所 涉及 的 数值 考虑 进 
行 详细 说 明 。 底 层 库 的 开发 者 在 实现 深度 学 习 算 法 时 应 该 牢记 数值 问题 。 本 书 的 大 
多 数 读 者 可 以 简单 地 依赖 保证 数值 稳定 的 底层 库 。 在 某 些 情况 下 ,我 们 有 可 能 在 实 
现 一 个 新 的 算法 时 自动 保持 数值 稳定 。 Theano (Bergstra et al., 2010a; Bastien et al., 
2012a) 就 是 这 样 软件 包 的 一 个 例子 ， 它 能 自动 检测 并 稳定 深度 学 习 中 许多 和 常见 的 数 
值 不 稳定 的 表达 式 。 





softmax( 72); = 














4.2 “病态 条 件 


条 件数 表征 函数 相对 于 输入 的 微小 变化 而 变化 的 快慢 程度 。 输 入 被 轻微 扰动 而 
迅速 改变 的 函数 对 于 科学 计算 来 说 可 能 是 有 问题 的 ， 因 为 输入 中 的 舍 人 误差 可 能 
致 输出 的 巨大 变化 。 

考虑 函数 f(z) = Ata. 4 A c R^ 具有 特征 值 分 解 时 ， 其 条 件数 为 











(4.2) 
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这 是 最 大 和 最 小 特征 值 的 模 之 比 !。 当 该 数 很 大 时 , SEMEL A IRE Re lB 

这 种 敏感 性 是 和 矩阵 本 身 的 固有 特性 ， 而 不 是 矩阵 求 逆 期 间 舍 入 误 差 的 结果 。 即 
使 我 们 乘 以 完全 正确 的 矩阵 道 ， 病 态 条 件 的 矩阵 也 会 放大 预先 存在 的 误差 。 在 实践 
中 ， 该 错误 将 与 求 逆 过 程 本 身 的 数值 误差 进一步 复合 。 











4.3 ”基于 梯度 的 优化 方法 


大 多 数 深度 学 习 算 法 都 涉及 某 种 形式 的 优化 。 优 化 指 的 是 改变 z 以 最 小 化 或 最 
大 化 某 个 函数 f(x) 的 任务 。 我 们 通常 以 最 小 化 f(x) 指 代 大 多 数 最 优化 问题 。 最 大 
化 可 经 由 最 小 化 算法 最 小 化 — f (a) 来 实现 。 

我 们 把 要 最 小 化 或 最 大 化 的 函数 称 为 目标 函数 (objective function ) 或 准则 
(criterion )。 当 我 们 对 其 进行 最 小 化 时 ， 我 们 也 把 它 称 为 代价 函数 (cost function )、 
损失 函数 (loss function ) 或 误差 函数 (error function )。 虽 然 有 些 机 器 学 习 著 作 赋 
予 这 些 名 称 特殊 的 意义 ,但 在 这 本 书 中 我 们 交替 使 用 这 些 术 语 。 

我 们 通常 使 用 一 个 上 标 * 表示 最 小 化 或 最 大 化 函数 的 x 值 。 如 我 们 记 x* = 
arg min f(z). 

我 们 假设 读者 已 经 熟悉 微 积分 ， 这 里 简要 回顾 微 积分 概念 如 何 与 优化 联系 。 

假设 我 们 有 一 个 函数 y= f P rI y 是 实数 ,这 个 函数 的 导数 (derivative ) 
WA 1(z) 或 Z, FA f(z) 代表 f(z) 在 点 z 处 的 斜率 。 换 句 话说 ， 它 表明 如 何 缩 
放 输 入 的 小 变化 才能 在 输出 获得 相应 的 变化 : f (ete) m f(x) + ef' (2). 

因此 导数 对 于 最 小 化 一 个 函数 很 有 用 ， 因 为 它 告诉 我 们 如 何 更 改 x 来 略微 地 改 
善 ys。 例如， 我 们 知道 对 于 足够 小 的 。 来 说 ，f(z 一 esign(f'(2))) 是 比 f(x) 小 的 。 
此 我 们 可 以 将 z 往 导 数 的 反方 向 移动 一 小 步 来 减 小 f(z)。 这 种 技术 被 称 为 梯度 下 降 
( gradient descent ) (Cauchy, 1847)。 图 4.1 展示 了 一 个 例子 。 

当 f(z) = 0， 导 数 无 法 提供 往 哪个 方向 移动 的 信息 。 了 (zx) = 0 的 点 称 为 临界 
点 (critical point ) 或 驻 点 (stationary point ), 一 个 局 部 极 小 点 (local minimum ) 
意味 着 这 个 点 的 f(x) 小 于 所 有 邻近 点 ， 因 此 不 可 能 通过 移动 无 穷 小 的 步 长 来 减 小 
f(z)。 一 个 局 部 极 大 点 (local maximum) 意味 着 这 个 点 的 f(z) 大 于 所 有 邻近 点 ， 
此 不 可 能 通过 移动 无 穷 小 的 步 长 来 增 大 f(x)。 有 些 临 界 点 既 不 是 最 小 点 也 不 是 最 大 


' 译 者 注 : 与 通常 的 条 件数 定义 有 所 不 同 。 
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Global minimum at x = 0. 
Since f'(x) = 0, gradient 
descent halts here. 


For z « 0, we have f'(x) For x > 0, we have f'(x) > 
SO we can decrease f b SO we can decrease f by 
moving rightward. moving leftward. 




















图 4.1: 梯度 下 降 。 梯 度 下 降 算法 如 何 使 用 函数 导数 的 示意 图 ， 即 沿 着 函数 的 下 坡 方向 〈 导数 反方 
向 ) 直到 最 小 。 











Kio EEA BPN BER (saddle point )。 见 图 4.2 给 出 的 各 种 临界 点 的 例子 。 


Minimum Maximum Saddle point 


图 4.2: 临界 点 的 类 型 。 一 维 情况 下 ， 三 种 临界 点 的 示例 。 临 界 点 是 斜率 为 零 的 点 。 这 样 的 点 可 以 
是 局 部 极 小 点 (local minimum )， 其 值 低 于 相 邻 点 ; BARAA (local maximum )， 其 值 高 于 相 
邻 点 ; 或 鞍点 ， 同 时 存在 更 高 和 更 低 的 相 邻 点 。 














使 f(a) 取得 绝对 的 最 小 值 (相对 所 有 其 他 值 ) 的 点 是 全 局 最 小 点 C global 
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minimum )。 函 数 可 能 只 有 一 个 全 局 最 小 点 或 存在 多 个 全 局 最 小 点 ， 还 可 能 存在 不 是 
全 局 最 优 的 局 部 极 小 点 。 在 深度 学 习 的 背景 下 ， 我 们 要 优化 的 函数 可 能 含有 许多 不 
是 最 优 的 局 部 极 小 点 ， 或 者 还 有 很 多 处 于 非常 平坦 的 区 域内 的 鞍点 。 尤 其 是 当 输 入 
是 多 维 的 时 候 ， 所 有 这 些 都 将 使 优化 变 得 困难 。 因 此 ， 我 们 通常 寻找 使 非常 小 的 
点 ,但 这 在 任何 形式 意义 下 并 不 一 定 是 最 小 。 见 图 4.3 的 例子 。 











This local minimum 
performs nearly as well as 
the global one， 

so it is an acceptable 
halting point. 


Ideally, we would like 
to arrive at the global 
minimum, but this 

might not be possible. 


f) 


This local minimum performs 
poorly and should be avoided. 





图 4.3: 近似 最 小 化 。 当 存在 多 个 局 部 极 小 点 或 平坦 区 域 时 ， 优 化 算法 可 能 无 法 找到 全 局 最 小 点 。 


在 深度 学 习 的 背景 下 ， 即 使 找到 的 解 不 是 真正 最 小 的 , 但 只 要 它们 对 应 于 代价 函数 显著 低 的 值 , 我 
们 通常 就 能 接受 这 样 的 解 。 
































我 们 经 常 最 小 化 具有 多 维 输入 的 函数 : 三: 了 "一 月。 为 了 使 “最 小 化 ”的 概念 有 
意义 ， 输 出 必须 是 一 维 的 (标量 )。 

针对 具有 多 维 输 入 的 函数 ， 我 们 需要 用 到 偏 导 数 (partial derivative) 的 概念 。 
偏 导数 E f (ar) 衡量 点 处 只 有 c; 增加 时 f(z) 如 何 变化 。 梯 度 (gradient ) 是 相 
对 一 个 向 量 求 导 的 导数 :j 的 导数 是 包含 所 有 偏 导 数 的 向 量 ， 记 为 V ,f(z)。 梯 度 的 第 
i 个 元 素 是 f 关于 x 的 偏 导 数 。 在 多 维 情况 下 ， 临 界 点 是 梯度 中 所 有 元 素 都 为 零 的 
点 


在 (单位 向 量 ) 方向 的 方向 导数 ( directional derivative ) 是 函数 f Æ u 77 In] 
的 斜率 。 换 句 话 说， 方向 导数 是 函数 f(z 十 aa T a 的 导数 (在 a = 0 时 取得 )。 
使 用 链 式 法 则 ， 我 们 可 以 看 到 当 a — 0 时 , Z2f(e@tau)=u'V.f (2). 
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为 了 最 小 化 1， 我 们 希望 找到 使 f 下降 得 最 快 的 方向 。 计 算 方向 导数 : 


min u Vof (2) (4.3) 
u,u' u=1 
= min [ulli Vaf (ola cost (44) 





其 中 9 是 u 与 梯度 的 夹 角 。 将 ula = 1 代入 ， 并 忽略 与 wv 无 关 的 项 ， 就 能 简化 得 
到 min cos 6. 这 在 u 与 梯度 方向 相反 时 取得 最 小 。 换 句 话 说， 梯度 向 量 指向 上 坡 ， 
负 梯 度 向 量 指向 下 坡 。 我 们 在 负 梯 度 方向 上 移动 可 以 减 小 j。 这 被 称 为 最 速 下 降 法 
(method of steepest descent) 或 梯度 下 降 ( gradient descent ). 

最 速 下 降 建 议 新 的 点 为 





a = 2-€Vzf(a) (4.5) 


其 中 oe 为 学 习 率 (learning rate )， 是 一 个 确定 步 长 大 小 的 正 标量 。 我 们 可 以 通过 几 
种 不 同 的 方式 选择 e。 普 遍 的 方式 是 选择 一 个 小 常数 。 有 时 我 们 通过 计算 ,选择 使 方 
向 导数 消失 的 步 长 。 还 有 一 种 方法 是 根据 几 个 € 计算 f(z 一 eVsf(z))， 并 选择 其 中 
能 产生 最 小 目标 函数 值 的 <。 这 种 策略 被 称 为 线 搜索 。 

最 速 下 降 在 梯度 的 每 一 个 元 素 为 零 时 收敛 〈 或 在 实践 中 ， 很 接近 零 时 )。 在 某 些 
情况 下 ， 我 们 也 许 能 够 避免 运行 该 迭代 算法 ， 并 通过 解 方程 Vaf (a) = 0 直接 跳 到 临 
界 点 。 

虽然 梯度 下 降 被 限制 在 连续 空间 中 的 优化 问题 ， 但 不 断 向 更 好 的 情况 移动 一 小 
步 ( 即 近似 最 佳 的 小 移动 ) 的 一 般 概念 可 以 推广 到 离散 空间 。 递 增 带 有 离散 参数 
的 目标 函数 被 称 为 假山 (hill climbing ) 算法 (Russel and Norvig, 2003). 











4.3.1 ”梯度 之 上 : Jacobian 和 Hessian 和 矩阵 


有 了 时 我 们 需要 计算 输入 和 输出 都 为 向 量 的 函数 的 所 有 偏 导数 。 包 含 所 有 这 样 的 
偏 导数 的 矩阵 被 称 为 Jacobian (Jacobian ) 矩阵。 具体 来 说 ， 如 果 我 们 有 一 个 函数 : 
f: R" SR", ff] Jacobian 矩阵 Je R"*" 4g X Jij = a5 f(2)i« 

有 时 , 我 们 也 对 导数 的 导数 感 兴趣 ， 即 二 阶 导数 (second derivative ) fA, A 
一 个 函数 f: Rm >R, f 的 一 阶 导数 (关于 r) 关于 zi 的 导数 记 为 uf. de HE 
情况 下 ， 我 们 可 以 将 Sf Oe 六 (z。 二 阶 导 数 告诉 我 们 ， 一 阶 导数 将 如 何 随 着 输入 
的 变化 而 改变 。 它 表示 只 基于 梯度 信息 的 梯度 下 降 步骤 是 否 会 产生 如 我 们 预期 的 那 
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样 大 的 改善 ， 因 此 它 是 重要 的 。 我 们 可 以 认为 ， 二 阶 导 数 是 对 曲率 的 衡量 。 假 设 我 
们 有 一 个 二 次 函数 (虽然 很 多 实践 中 的 函数 都 不 是 二 次 的 ， 但 至 少 在 局 部 可 以 很 好 
地 用 二 次 近似 )。 如 果 这 样 的 函数 具有 零 二 阶 导 数 ， 那 就 没有 曲率 。 也 就 是 一 条 完全 
平坦 的 线 ， 仅 用 梯度 就 可 以 预测 它 的 值 。 我 们 使 用 沿 负 梯 度 方向 大 小 为 e 的 下 降 步 ， 
当 该 梯度 是 1 时 ， 代 价 函数 将 下 降 e。 如 果 二 阶 导 数 是 负 的 ， 函 数 曲 线 向 下 凹陷 (向 
上 凸 出 )， 因 此 代价 函数 将 下 降 的 比 e 多 。 如 果 二 阶 导数 是 正 的 ， 函 数 曲 线 是 向 上 凹 
隐 (向 下 上 是 出)， 因 此 代价 函数 将 下 降 的 比 e 少 。 从 图 4.4 可 以 看 出 不 同形 式 的 曲率 如 
何 影响 基于 梯度 的 预测 值 与 真实 的 代价 了 数值 的 关系 。 


Negative curvature No curvature Positive curvature 
O O O 
B 2 B 
x x x 
zx x zr 


图 4.4: 二 阶 导数 确定 函数 的 曲率 。 这 里 我 们 展示 具有 各 种 曲率 的 二 次 函数 。 虚 线 表示 我 们 仅 根 据 
梯度 信息 进行 梯度 下 降 后 预期 的 代价 函数 值 。 对 于 负 曲 率 ， 代 价 函 数 实际 上 比 梯度 预测 下 降 得 更 
Ro 没有 曲率 时 ,梯度 正确 预测 下 降 值 。 对 于 正 曲 率 ， 函 数 比 预期 下 降 得 更 慢 ， 并且 最 终 会 开始 增 
加 ， 因 此 太 大 的 步 又 实际 上 可 能 会 无 意 地 增加 函数 值 。 


















































当 我 们 的 函数 具有 多 维 输入 时 ， 二 阶 导 数 也 有 很 多 。 我 们 可 以 将 这 些 导数 合并 
成 一 个 和 矩阵 ， 称 为 Hessian (Hessian ) 矩阵 。Hessian 矩阵 H(f)(x) 定义 为 


Q? 





HU) = 5 f(2) (46) 
iO Tj 
Hessian 等 价 于 梯度 的 Jacobian 和 矩阵 。 
微分 算 子 在 任何 二 阶 偏 导 连续 的 点 处 可 交换 ， 也 就 是 它们 的 顺序 可 以 互 换 : 
(4.7) 
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这 意味 着 Hi; = Hja KE Hessian 算 阵 在 这 些 点 上 是 对 称 的 。 在 深度 学 习 背 景 下 ， 
我 们 遇 到 的 大 多 数 函 数 的 Hessian 几乎 处 处 都 是 对 称 的 。 因 为 Hessian 矩阵 是 实 对 
称 的 ， 我 们 可 以 将 其 分 解 成 一 组 实 特征 值 和 一 组 特征 向 量 的 正 交 基 。 在 特定 方向 d 
上 的 二 阶 导 数 可 以 写成 d Hd。 当 d 是 五 的 一 个 特征 向 量 时 ， 这 个 方向 的 二 阶 导 
数 就 是 对 应 的 特征 值 。 对 于 其 他 的 方向 d， 方 向 二 阶 导数 是 所 有 特征 值 的 加 权 平 均 ， 
权重 在 0 和 1 之 间 ， 且 与 d 夹 角 越 小 的 特征 问 量 的 权重 越 大 。 最 大 特征 值 确定 最 
大 二 阶 导 数 ， 最 小 特征 值 确定 最 小 二 阶 导数 。 

我 们 可 以 通过 (方向 ) 二 阶 导 数 预期 一 个 梯度 下 降 步骤 能 表现 得 多 好 。 我 们 在 
当前 点 a0 Abe RRA f(z) 的 近似 二 阶 泰勒 级 数 : 


fla) ee ff) + (ws) Tg + iE- OTHE- 2), — . (48) 


其 中 9 是 梯度 ， 互 是 a 点 的 Hessian。 如 果 我 们 使 用 学 习 率 e， 那 么 新 的 点 zt 
会 是 a9 一 eg。 代入 上 述 的 近似 ， 可 得 


1 
f(a — eg) ~ fa) — eg g+ 3e9 Hg. (4.9) 


其 中 有 3 项 : 函数 的 原始 值 、 函 数 和 斜率 导致 的 预期 改善 、 函 数 曲 率 导致 的 校正 。 当 
最 后 一 项 太 大 时 ,梯度 下 降 实 际 上 是 可 能 向 上 移动 的 。 当 g' Hg 为 零 或 负 时 ， 近 似 
的 泰勒 级 数 表明 增加 e 将 永远 使 了 下降 。 在 实践 中 ,泰勒 级 数 不 会 在 。 大 的 时 候 也 
保持 准确 ， 因 此 在 这 种 情况 下 我 们 必须 采取 更 启发 式 的 选择 。 当 g' Hg 为 正 时 ， 通 
过 计算 可 得 ， 使 近似 泰勒 级 数 下 降 最 多 的 最 优 步 长 为 





gu tH (4.10) 


最 坏 的 情况 下 ，g 与 H RARE Amax 对 应 的 特征 向 量 对 齐 ， 则 最 优 步 长 是 o 
我 们 要 最 小 化 的 函数 能 用 二 次 函数 很 好 地 近似 的 情况 下 ，Hessian 的 特征 值 决定 了 学 
习 率 的 量 级 。 

二 阶 导 数 还 可 以 被 用 于 确定 一 个 临界 点 是 否 是 局 部 极 大 点 、 局 部 极 小 点 或 鞍点 。 
回想 一 下 ， 在 临界 点 处 f(z) = 0。 而 fx) > 0 意味 着 f(x) 会 随 着 我 们 移 向 右边 
而 增加 ， 移 向 左边 而 减 小 , 也 就 是 jz e) <0 和 f(z 十 e) > 0 对 足够 小 的 e 成立。 
换 句 话说 ， 当 我 们 移 向 右边 ， 和 斜率 开始 指向 右边 的 上 坡 ， 当 我 们 移 向 左边 ， 和 斜率 开 
始 指向 左边 的 上 坡 。 因 此 我 们 得 出 结论 ， 当 f(x) 20 H f(e) > 0 时 ，z 是 一 个 局 
Wh. EE, f'(z)-0 H f(x) < 0 时 ，z 是 一 个 局 部 极 大 点 。 这 就 是 所 谓 
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的 二 阶 导数 测试 (second derivative test )。 不 地 的 是 ， 当 f(e) = 0 时 测试 是 不 确 
定 的 。 在 这 种 情况 下 ，z 可 以 是 一 个 鞍点 或 平坦 区 域 的 一 部 分 。 

在 多 维 情况 下 ， 我 们 需要 检测 函数 的 所 有 二 阶 导 数 。 利 用 Hessian 的 特征 值 分 
解 ， 我 们 可 以 将 二 阶 导 数 测试 扩展 到 多 维 情况 。 在 临界 点 处 (Vsf (x) = 0 )， 我 们 通 
过 检测 Hessian 的 特征 值 来 判断 该 临界 点 是 一 个 局 部 极 大 点 、 局 部 极 小 点 还 是 鞍点 。 
当 Hessian 是 正定 的 (所 有 特征 值 都 是 正 的 )， 则 该 临界 点 是 局 部 极 小 点 。 因 为 方 
向 二 阶 导 数 在 任意 方向 都 是 正 的 ， 参 考 单 变量 的 二 阶 导 数 测试 就 能 得 出 此 结论 。 同 
样 的 ， 当 Hessian 是 负 定 的 《所 有 特征 值 都 是 负 的 )， 这 个 点 就 是 局 部 极 大 点 。 在 多 
维 情况 下 ， 实 际 上 我 们 可 以 找到 确定 该 点 是 否 为 鞍点 的 积极 迹象 ( 某 些 情况 下 )。 如 
果 Hessian 的 特征 值 中 至 少 一 个 是 正 的 且 至 少 一 个 是 负 的 ， 那么 z 是 f 某 个 横 截 面 
的 局 部 极 大 点 ， 却 是 另 一 个 横 截 面 的 局 部 极 小 点 。 见 图 4.5 中 的 例子 。 最 后 ， 多 维 二 
阶 导 数 测试 可 能 像 单 变量 版 本 那样 是 不 确定 的 。 当 所 有 非 零 特 征 值 是 同 号 的 且 至 少 
有 一 个 特征 值 是 0 时 ， 这 个 检测 就 是 不 确定 的 。 这 是 因为 单 变量 的 二 阶 导 数 测试 在 
零 特 征 值 对 应 的 横 截 面 上 是 不 确定 的 。 

















图 4.5: 既 有 正 曲率 又 有 负 曲 率 的 鞍点 。 示 例 中 的 函数 是 f(z) = xi 一 x2. PRB zi HI be 
HH. v. 轴 是 Hessian 的 一 个 特征 向 量 ， 并 且 具 有 正 特 征 值 。 函 数 沿 zs 轴 向 下 弯曲 。 该 方向 对 应 
于 Hessian 负 特征 值 的 特征 向 量 。 名 称 “ 鞍 点” 源 自 该 处 函数 的 鞍 状 形状 。 这 是 具有 壕 点 函数 的 典 
型 示例 。 维度 多 于 一 个 时 , 园 点 不 一 定 要 具有 0 特征 值 : 仅 需要 同时 具有 正 特征 值 和 负 特 征 值 。 我 
们 可 以 想象 这 样 一 个 鞍点 (具有 正 负 特征 值 ) 在 一 个 横 截 面 内 是 局 部 极 大 点 ， 而 在 另 一 个 横 截 面 
内 是 局 部 极 小 点 。 




























































































多 维 情况 下 ， 单 个 点 处 每 个 方向 上 的 二 阶 导 数 是 不 同 。Hessian 的 条 件数 衡量 
这 些 二 阶 导数 的 变化 范围 。 当 Hessian 的 条 件数 很 差 时 ， 梯 度 下 降 法 也 会 表现 得 很 
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差 。 这 是 因为 一 个 方向 上 的 导数 增加 得 很 快 ， 而 在 另 一 个 方向 上 增加 得 很 慢 。 梯 度 
下 降 不 知道 导数 的 这 种 变化 ， 所 以 它 不 知道 应 该 优先 探索 导数 长 期 为 负 的 方向 。 病 
态 条 件 也 导致 很 难 选择 合适 的 步 长 。 步 长 必须 足够 小 ， 以 免 冲 过 最 小 而 向 具有 较 强 
正 曲 率 的 方向 上 升 。 这 通常 意味 着 步 长 太 小 ， 以 致 于 在 其 他 较 小 曲率 的 方向 上 进展 
不 明显 。 见 图 4.6 的 例子 。 





30 
一 30 —20 —10 0 10 20 
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图 4.6: 梯度 下 降 无 法 利用 包含 在 Hessian 矩阵 中 的 曲率 信息 。 这 里 我 们 使 用 梯度 下 降 来 最 小 
化 Hessian 矩阵 条 件数 为 5 的 二 次 函数 f(z)。 这 意味 着 最 大 曲率 方向 具有 比 最 小 曲率 方向 多 五 倍 
的 曲率 。 在 这 种 情况 下 ， 最 大 曲率 在 [1]! 方向 上 ,最 小 曲率 在 [1, 1]! 方向 上 。 红 线 表示 梯度 
下 降 的 路 径 。 这 个 非常 细 长 的 二 次 函数 类 似 一 个 长 峡谷 。 梯 度 下 降 把 时 间 浪 费 于 在 峡谷 壁 反复 下 
降 ， 因 为 它们 是 最 陡峭 的 特征 。 由 于 步 长 有 点 大 ， 有 超过 函数 底部 的 趋势 ， 因 此 需要 在 下 一 次 迭代 
时 在 对 面 的 峡谷 壁 下 降 。 与 指向 该 方向 的 特征 向 量 对 应 的 Hessian 的 大 的 正 特 征 值 表示 该 方向 上 
的 导数 快速 增加 ， 因 此 基于 Hessian 的 优化 算法 可 以 预测 ， 在 此 情况 下 最 陡峭 方向 实际 上 不 是 有 
前 途 的 搜索 方向 。 





































































































我 们 可 以 使 用 Hessian 矩阵 的 信息 来 指导 搜索 ， 以 解决 这 个 问题 。 其 中 最 简单 
的 方法 是 牛顿 法 (Newton's method )。 牛 顿 法 基于 一 个 二 阶 泰勒 展开 来 近似 O 附 


近 的 f(x): 
Fla) ~ F9) (@— LO) Vf (a) + 2 (2 — a) HN) a). (4.11) 
接着 通过 计算 ， 我们 可 以 得 到 这 个 函数 的 临界 点 : 


a = aO — H(f)(a)-! Vf (a). (4.12) 


当 f 是 一 个 正定 二 次 函数 时 ， 牛 顿 法 只 要 应 用 一 次 式 (4.12) 就 能 直接 跳 到 函数 的 最 
小 点 。 如 果 f 不 是 一 个 真正 二 次 但 能 在 局 部 近似 为 正定 二 次 ， 牛 顿 法 则 需要 多 次 过 
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代 应 用 式 (4.12) 。 迭 代 地 更 新 近似 函数 和 跳 到 近似 函数 的 最 小 点 可 以 比 梯度 下 降 更 
快 地 到 达 临 界 点 。 这 在 接近 局 部 极 小 点 时 是 一 个 特别 有 用 的 性 质 ， 但 是 在 鞍点 附近 
是 有 害 的 。 如 式 (8.2.3) 所 讨论 的 ， 当 附近 的 临界 点 是 最 小 点 〈Hessian 的 所 有 特征 值 
都 是 正 的 ) 时 牛顿 法 才 适 用 ， 而 梯度 下 降 不 会 被 吸引 到 鞍点 (除非 梯度 指向 鞍点 )。 

仅 使 用 梯度 信息 的 优化 算法 被 称 为 一 阶 优化 算法 (first-order optimization al- 
gorithms)， 如 梯度 下 降 。 使 用 Hessian 和 矩阵 的 优化 算法 被 称 为 二 阶 最 优化 算法 
(second-order optimization algorithms)(Nocedal and Wright, 2006)， 如 牛顿 法 。 

在 本 书 大 多 数 上 下 文中 使 用 的 优化 算法 适用 于 各 种 各 样 的 孔 数 ， 但 儿 乎 都 没有 
保证 。 因 为 在 深度 学 习 中 使 用 的 函数 族 是 相当 复杂 的 ， 所 以 深度 学 习 算 法 往往 缺乏 
保证 。 在 许多 其 他 领域 ， 优 化 的 主要 方法 是 为 有 限 的 函数 族 设 计 优 化 算法 。 

在 深度 学 习 的 背景 下 ,限制 函数 满足 Lipschitz 连续 (Lipschitz continuous ) 或 
其 导数 Lipschitz 连 续 可 以 获得 一 些 保证 。 Lipschitz 连续 函数 的 变化 速度 以 Lipschitz 
常数 (Lipschitz constant ) LAF: 














Va, Vy, |f(z) — f(y) € Lle- vllz- (4.13) 


这 个 属性 允许 我 们 量化 我 们 的 假设 一 一 梯度 下 降 等 算法 导致 的 输入 的 微小 变化 将 使 
输出 只 产生 微小 变化 ,因此 是 很 有 用 的 。Lipschitz 连续 性 也 是 相当 弱 的 约束 ， 并 
且 深 度 学 习 中 很 多 优化 问题 经 过 相对 较 小 的 修改 后 就 能 变 得 Lipschitz 连续 。 

最 成 功 的 特定 优化 领域 或 许 是 凸 优化 (Convex optimization )。 四 优化 通过 更 强 
的 限制 提供 更 多 的 保证 。 同 优化 算法 上 只 对 凸 函 数 适用 ， 即 Hessian 处 处 半 正 定 的 函 
数 。 因 为 这 些 函 数 没 有 鞍点 而 且 其 所 有 局 部 极 小 点 必然 是 全 局 最 小 点 ， 所 以 表现 很 
好 。 然 而 ,深度 学 习 中 的 大 多 数 问 题 都 难以 表示 成 凸 优化 的 形式 。 凸 优化 仅 用 作 一 
些 深度 学 习 算 法 的 子 程序 。 凸 优化 中 的 分 析 思 路 对 证 明 深度 学 习 算 法 的 收敛 性 非常 
有 用 ， 然 而 一 般 来 说 ， 深 度 学 习 背 景 下 凸 优化 的 重要 性 大 大 减少 。 有 关 凸 优化 的 详 
细 信 息 ， 详 见 Boyd and Vandenberghe (2004) 或 Rockafellar (1997)。 














4.4 约束 优化 


4 BE, Æ z 的 所 有 可 能 值 下 最 大 化 或 最 小 化 一 个 函数 f(z) 不 是 我 们 所 希望 
的 。 相 反 ， 我 们 可 能 希望 在 x 的 某 些 集合 S 中 找 f(x) 的 最 大 值 或 最 小 值 。 这 被 称 
为 约束 优化 (constrained optimization )。 在 约束 优化 术语 中 , BAS 内 的 点 x 被 称 
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为 可 行 〈feasible ) 点 。 

我 们 常常 希望 找到 在 某 种 意义 上 小 的 解 。 针 对 这 种 情况 下 的 常见 方法 是 强加 一 
个 范 数 约束 ， 如 lal] < 1. 

约束 优化 的 一 个 简单 方法 是 将 约束 考虑 在 内 后 简单 地 对 梯度 下 降 进行 修改 。 如 
果 我 们 使 用 一 个 小 的 恒定 步 长 e， 我 们 可 以 先 取 梯 度 下 降 的 单 步 结果 ， 然 后 将 结果 投 
影 回 S$。 如 果 我 们 使 用 线 搜索 , 我 们 只 能 在 步 长 为 e 范围 内 搜索 可 行 的 新 z 点 , 或 者 
我 们 可 以 将 线 上 的 每 个 点 投影 到 约束 区 域 。 如 果 可 能 的 话 ， 在 梯度 下 降 或 线 搜索 前 
将 梯度 投影 到 可 行 域 的 切 空间 会 更 高 效 (Rosen, 1960)。 

一 个 更 复杂 的 方法 是 设计 一 个 不 同 的 、 无 约束 的 优化 问题 ， 其 解 可 以 转化 成 原 
始 约束 优化 问题 的 解 。 例 如 , 我 们 要 在 xe R 中 最 小 化 f(x), 其 中 z 约束 为 具有 单 
位 L 范 数 。 我 们 可 以 关于 0 最 小 化 g(9) = f([cos0,sin0]'), fJri3kInl [cos 0, sin 6] 
作为 原 问题 的 解 。 这 种 方法 需要 创造 性 ; 优化 问题 之 间 的 转换 必须 专门 根据 我 们 遇 
到 的 每 一 种 情况 进行 设计 。 

Karush-Kuhn-Tucker ( KKT ) 方法 ?是 针对 约束 优化 非常 通用 的 解决 方案 。 
为 介绍 KKT 方 法 ， 我 们 引入 一 个 称 为 广义 Lagrangian (generalized Lagrangian ) 
或 广义 Lagrange 函数 (generalized Lagrange function ) WJ% AŽ 

为 了 定义 Lagrangian， 我 们 先 要 通过 等 式 和 不 等 式 的 形式 描述 S。 我 们 希望 通 
过 m 个 函数 gO All n PPR AY) HE S, WAS 可 以 表示 为 $= (x | Vi, g (£) = 
0 and Yj, hO (a) < 0}。 其 中 涉及 gO 的 等 式 称 为 等 式 约束 (equality constraint ), 
涉及 AD 的 不 等 式 称 为 不 等 式 约束 (inequality constraint )。 

我 们 为 每 个 约束 引入 新 的 变量 X 和 a;， 这 些 新 变量 被 称 为 KKT 乘 子 。 广 义 
Lagrangian 可 以 如 下 定义 : 




















L(x,M,a) = f(x) + 2: Aug (a) 十 2. o; h? (a). (4.14) 





现在 ， 我 们 可 以 通过 优化 无 约束 的 广义 Lagrangian 解决 约束 最 小 化 问题 。 只 要 
存在 至 少 一 个 可 行 点 且 f(x) 不 允许 取 co， 那么 


min max max L(z, A, œ) (4.15) 
x A a,a>0 





?KKT 方法 是 Lagrange RFK ( 只 允许 等 式 约束 ) 的 推广 。 
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与 如 下 函数 有 相同 的 最 优 目标 函数 值 和 最 优点 集 z 


min f(z). (4.16) 
这 是 因为 当 约 束 满足 时 ， 
max max L(z, A, a) = f(x), (4.17) 
而 违反 任意 约束 时 ， 
max max L(a, A, a) = co. (4.18) 


^ a,a> 
这 些 性 质保 证 不 可 行 点 不 会 是 最 佳 的 ， 并 且 可 行 点 范围 内 的 最 优点 不 变 。 


要 解决 约束 最 大 化 问题 ， 我 们 可 以 构造 —f(a) 的 广义 Lagrange 函数 ， 从 而 导 
致 以 下 优化 问题 : 














min max max — x) + 2, Aug (a) 十 2 ajh (a). (4.19) 
j 


我 们 也 可 将 其 转换 为 在 外 层 最 大 化 的 问题 : 


max min amin MG ) + 2, Ag LM oh? (ax (4.20) 





等 式 约束 对 应 项 的 符号 并 不 重要 ; 因为 优化 可 以 自由 选择 每 个 A; 的 符号 ， 我 们 可 以 
随意 将 其 定义 为 加 法 或 减法 。 
不 等 式 约束 特别 有 趣 。 如 果 Oa) = 0, 我们 就 说 说 这 个 约束 hO (ax) 是 活跃 
(active) 的 。 如 果 约 束 不 是 活跃 的 ， 则 有 该 约束 的 问题 的 解 与 去 掉 该 约束 的 问题 的 
至 少 存在 一 个 相同 的 局 部 解 。 一 个 不 活跃 约束 有 可 能 排除 其 他 解 。 例 如 ， 整 个 区 
域 (代价 相等 的 宽 平 区 域 ) 都 是 全 局 最 优点 的 的 凸 问题 可 能 因 约 柬 消 去 其 中 的 某 个 
子 区域 ， 或 在 非 凸 问题 的 情况 下 ， 收 和 敛 时 不 活跃 的 约束 可 能 排除 了 较 好 的 局 部 驻 点 。 
然而 ,无论 不 活跃 的 约束 是 否 被 包括 在 内 ， 收 敛 时 找到 的 点 仍然 是 一 个 驻 点 。 因 为 
一 个 不 活跃 的 约束 nO 必 有 人 负 值 ， 那 么 min max max L(g, A, a) 中 的 o; = 0. Al 
此 ， 我 们 可 以 观察 到 在 该 解 中 a © h(x) = o. 换 句 话说 ， 对 于 所 有 的 i, a; >0 或 
AD (a) < 0 在 收敛 时 必 有 一 个 是 活跃 的 。 为 了 获得 关于 这 个 想法 的 一 些 直观 解释 ， 
我 们 可 以 说 这 个 解 是 由 不 等 式 强加 的 边界 ， 我 们 必须 通过 对 应 的 KKT 乘 子 影响 z 
的 解 ， 或 者 不 等 式 对 解 没有 影响 ， 我 们 则 归 零 KKT RF. 
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我 们 可 以 使 用 一 组 简单 的 性 质 来 描述 约束 优化 问题 的 最 优点 。 这 些 性 质 称 
为 Karush-Kuhn-Tucker (KKT ) 条 件 (Karush, 1939; Kuhn and Tucker, 1951)。 
这 些 是 确定 一 个 点 是 最 优点 的 必要 条 件 ， 但 不 一 定 是 充分 条 件 。 这 些 条 件 是 : 
e 广义 Lagrangian 的 梯度 为 零 。 
。 所 有 关于 a 和 KKT 乘 子 的 约束 都 满足 。 
e. 不 等 式 约束 显示 的 “互补 松弛 性 ”: eo h(x) = 0. 





有 关 KKT 方法 的 详细 信息 ， 请 参阅 Nocedal and Wright (2006)。 


4.5 ”实例 : 线性 最 小 二 乘 


假设 我 们 和 希望 找到 最 小 化 下 式 的 x fH 
1 
f(x) = 5| Ae — bl. (4.21) 
存在 专门 的 线性 代数 算法 能 够 高 效 地 解决 这 个 问题 ; 但 是 ， 我 们 也 可 以 探索 如 何 使 
用 基于 梯度 的 优化 来 解决 这 个 问题 ， 这 可 以 作为 这 些 技术 是 如 何 工 作 的 一 个 简单 例 
于 3 
首先 ， 我 们 计算 梯度 : 


V.f(x) = A'(Ar— b) = A Az— A'b. (4.22) 


然后 ,我 们 可 以 采用 小 的 步 长 ， 并 按照 这 个 梯度 下 降 。 见 算法 4.1 中 的 详细 信息 。 


算法 4.1 从 任意 点 z 开始 ， 使 用 梯度 下 降 关 于 z 最 小 化 f(z) = HAr- bll 的 算 
法 。 
KERK (e) 和 容 差 (6) 设 为 小 的 正 数 。 
while | 4 Az— 4 b||; >ô do 
rt LE (4 4z- A'b) 


end while 








我 们 也 可 以 使 用 牛顿 法 解决 这 个 问题 。 因 为 在 这 个 情况 下 ， 真 实 函 数 是 二 次 的 ， 
牛顿 法 所 用 的 二 次 近似 是 精确 的 ， 该 算法 会 在 一 步 后 收敛 到 全 局 最 小 点 。 
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现在 假设 我 们 希望 最 小 化 同样 的 函数 ， 但 受 mic < 1 的 约束 。 要 做 到 这 一 点 ， 
我 们 引入 Lagrangian 
L(x, A) = f(x) + A(z' x — 1). (4.23) 
现在 ， 我 们 解决 以 下 问题 


in nae L(x, ^). (4.24) 


T 





我 们 可 以 用 Moore-Penrose (yi: a= A* b 找到 无 约束 最 小 二 乘 问题 的 最 小 范 
数 解 。 如 果 这 一 点 是 可 行 , 那么 这 也 是 约束 问题 的 解 。 否 则 ,我 们 必须 找到 约束 是 活 
跃 的 解 。 关 于 x 对 Lagrangian 微分 ， 我 们 得 到 方程 





A' Az — A! b 4- 2Ax — 0. (4.25) 
就 告诉 我 们 ， 该 解 的 形式 将 会 是 
z—(A' A-«2AI)-!A' b. (4.26) 


A 的 选择 必须 使 结果 服从 约束 。 我 们 可 以 关于 A 进行 梯度 上 升 找 到 这 个 值 。 为 了 做 
到 这 一 点 ， 观 察 
o 
8A 
M z 的 范 数 超过 1 时 ,该 导数 是 正 的 ， 所 以 为 了 跟随 导数 上 坡 并 相对 A 增 
加 Lagrangian， 我 们 需要 增加 A. AN zz 的 惩罚 系数 增加 了 ， 求解 关于 x 的 
线性 方程 现在 将 得 到 具有 较 小 范 数 的 解 。 求 解 线性 方程 和 调整 和 的 过 程 将 一 直 持 续 
到 z 具有 正确 的 范 数 并 且 关 于 A 的 导数 是 0。 
本 章 总 结 了 开发 机 器 学 习 算法 所 需 的 数学 基础 。 现 在 ,我们 已 经 准备 好 建立 和 
分 析 一 些 成 熟 的 学 习 系统 。 


L(a, A). 一 Zrz 一 1 (4.27) 
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深度 学 习 是 机 器 学 习 的 一 个 特定 分 支 。 我 们 要 想 充 分 理解 深度 学 习 ， 必 须 对 机 器 
学 习 的 基本 原理 有 深刻 的 理解 。 本 章 将 探讨 贯穿 本 书 其 余部 分 的 一 些 机 器 学 习 重要 
原理 。 我 们 建议 新 手 读者 或 是 希望 更 全 面 了 解 的 读者 参考 一 些 更 全 面 覆 盖 基 础 知识 
的 机 器 学 习 参 考 书 , 例如 Murphy (2012) 或 者 Bishop (2006)。 如 果 你 已 经 熟知 机 器 
学 习 ， 可 以 跳 过 前 面 的 部 分 ， 前 往 第 5.11 节 。 第 5.11 节 涵盖 了 一 些 传统 机 器 学 习 技 
术 观 点 ， 这 些 技术 对 深度 学 习 的 发 展 有 着 深远 影响 。 

首先 , 我 们 将 介绍 学 习 算 法 的 定义 ,并 介绍 一 个 简单 的 示例 : 线性 回归 算法 。 接 
下 来 ,我 们 会 探讨 拟 合 训练 数据 与 寻找 能 够 泛 化 到 新 数据 的 模式 存在 哪些 不 同 的 挑 
战 。 大 部 分 机 器 学 习 算法 都 有 起 参数 (必须 在 学 习 算 法 外 设 定 ); 我 们 将 探讨 如 何 使 
用 额外 的 数据 设置 超 参 数 。 机 器 学 习 本 质 上 属于 应 用 统计 学 ， 更 多 地 关注 于 如 何 用 
计算 机 统计 地 估计 复杂 函数 ， 不 太 关 注 为 这 些 函 数 提供 置信 区 间 ; 因此 我 们 会 探讨 
两 种 统计 学 的 主要 方法 : 频率 派 估 计 和 贝 叶 斯 推断 。 大 部 分 机 顺 学 习 算 法 可 以 分 成 监 
督学 习 和 无 监督 学 习 两 类 ; 我 们 将 探讨 不 同 的 分 类 ， 并 为 每 类 提供 一 些 简单 的 机 器 
学 习 算法 作为 示例 。 大 部 分 深度 学 习 算 法 都 是 基于 被 称 为 随机 梯度 下 降 的 算法 求解 
的 。 我 们 将 介绍 如 何 组 合 不 同 的 算法 部 分 ， 例 如 优化 算法 、 代 价 函 数 、 模 型 和 数据 
集 ， 来 建立 一 个 机 器 学 习 算 法 。 最 后 在 第 5.11 节 ， 我 们 会 介绍 一 些 限 制 传统 机 器 学 
习 泛 化 能 力 的 因素 。 这 些 挑战 促进 了 解决 这 些 问 题 的 深度 学 习 算 法 的 发 展 。 























5.1 学习 算 法 


机 器 学 习 算 法 是 一 种 能 够 从 数据 中 学 习 的 算法 。 然 而 ， 我 们 所谓 的 “学 习 ” 是 什 
么 意思 呢 ? Mitchell (1997) 提供 了 一 个 简洁 的 定义 :“ 对 于 某 类 任务 T 和 性 能 度量 
尸 ， 一 个 计算 机 程序 被 认为 可 以 从 经 验 E 中 学 习 是 指 ， 通 过 经 验 E 改进 后 ， 它 在 任 
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务 T 上 由 性 能 度量 P 衡量 的 性 能 有 所 提升 。” 经 验 EB, E5 了 和 性 能 度量 P 的 定 
义 范围 非常 宽广 ， 在 本 书 中 我 们 并 不 会 试图 去 解释 这 些 定义 的 具体 意义 。 相 反 ， 我 
们 会 在 接 下 来 的 章节 中 提供 直观 的 解释 和 示例 来 介绍 不 同 的 任务 、 性 能 度量 和 经 验 ， 
这 些 将 被 用 来 构建 机 器 学 习 算法 。 


5.1.1 FST 


机 器 学 习 可 以 让 我 们 解决 一 些 人 为 设计 和 使 用 确定 性 程序 很 难 解决 的 问题 。 从 
科学 和 哲学 的 角度 来 看 ， 机 需 学 习 受 到 关注 是 因为 提高 我 们 对 机 器 学 习 的 认识 需要 
提高 我 们 对 智能 背后 原理 的 理解 。 

从 “任务 ”的 相对 正式 的 定义 上 说 ， 学习 过 程 本 身 不 能 算是 任务 。 学 习 是 我 们 所 
谓 的 获取 完成 任务 的 能 力 。 例 如 ， 我 们 的 目标 是 使 机 器 人 能 够 行走 ， 那 么 行走 便 是 
任务 。 我 们 可 以 编程 让 机 器 人 学 会 如 何 行走 ， 或 者 可 以 人 工 编 写 特 定 的 指令 来 指导 
机 需 人 如 何 行走 。 

通常 机 器 学 习 任 务 定 义 为 机 器 学 习 系 统 应 该 如 何 处 理 样 本 (example )。 样 本 是 
指 我 们 从 某 些 希 望 机 器 学 习 系 统 处 理 的 对 象 或 事件 中 收集 到 的 已 经 量化 的 特征 
(feature ) 的 集合 。 我们 通常 会 将 样本 表示 成 一 个 向 量 ze R"， 其 中 癌 量 的 每 一 个 元 
素 z; 是 一 个 特征 。 例 如 ， 一 张 图 片 的 特征 通常 是 指 这 张 图 片 的 像素 值 。 

机 器 学 习 可 以 解决 很 多 类 型 的 任务 。 一 些 非常 常见 的 机 器 学 习 任 务 列举 如 下 : 








e 分 类 : 在 这 类 任务 中 ， 计 算 机 程序 需要 指定 某 些 输入 属于 类 中 的 哪 一 类 。 
为 了 完成 这 个 任务 ， 学 习 算 法 通常 会 返回 一 个 函数 f: R {1,...,k}. 4 
y = f(x) 时 ,， 模 型 将 向 量 oe 所 代表 的 输入 分 类 到 数字 码 y 所 代表 的 类 别 。 还 有 
一 些 其 他 的 分 类 问题 ， 例 如 ，f 输出 的 是 不 同类 别 的 概率 分 布 。 分 类 任务 中 有 
一 个 任务 是 对 象 识 别 ， 其 中 输入 是 图 片 (通常 由 一 组 像素 亮度 值 表示 )， 输 出 
是 表示 图 片 物 体 的 数字 码 。 例 如 ，Willow Garage PR2 机 器 人 能 像 服务 员 一 样 
识别 不 同 饮料 ， 并 送 给 点 餐 的 顾客 (Goodfellow et aL, 2010)。 目 前 ， 最 好 的 对 
象 识别 工作 正 是 基于 深度 学 习 的 (Krizhevsky et al., 2012a; Ioffe and Szegedy, 
2015)。 对 象 识别 同时 也 是 计算 机 识别 人 脸 的 基本 技术 ， 可 用 于 标记 相片 合辑 中 
的 人 脸 (Taigman et al., 2014), ， 有 助 于 计算 机 更 自然 地 与 用 户 交 互 。 


。 输 入 缺失 分 类 : 当 输 入 向 量 的 每 个 度量 不 被 保证 的 时 候 ， 分 类 问题 将 会 变 得 更 
有 挑战 性 。 为 了 解决 分 类 任务 ， 学 习 算法 只 需要 定义 一 个 从 输入 向 量 映射 到 输 
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出 类 别 的 函数 。 当 一 些 输入 可 能 丢失 时 ， 学 习 算 法 必须 学 习 一 组 函数 ， 而 不 是 
单个 分 类 函数 。 每 个 函数 对 应 着 分 类 具有 不 同 缺 失 输入 子 集 的 rz。 这 种 情况 在 
医疗 诊断 中 经 常 出 现 ， 因 为 很 多 类 型 的 医学 测试 是 昂贵 的 ， 对 身体 有 害 的 。 有 
效 地 定义 这 样 一 个 大 集合 函数 的 方法 是 学 习 所 有 相关 变量 的 概率 分 布 ， 然 后 通 
过 边缘 化 缺失 变量 来 解决 分 类 任务 。 使 用 ”个 输入 变量 ， 我 们 现在 可 以 获得 每 
个 可 能 的 缺失 输入 集合 所 需 的 所 有 2” 个 不 同 的 分 类 函数 ， 但 是 计算 机 程序 仅 
需要 学 习 一 个 描述 联合 概率 分 布 的 函数 。 人 参见 Goodfellow et al. (2013d) T fif 
以 这 种 方式 将 深度 概率 模型 应 用 于 这 类 任务 的 示例 。 本 节 中 描述 的 许多 其 他 任 
务 也 可 以 推广 到 缺失 输入 的 情况 ; 缺失 输入 分 类 只 是 机 器 学 习 能 够 解决 的 问题 
的 一 个 示例 。 


回归 : 在 这 类 任务 中 ， 计 算 机 程序 需要 对 给 定 输入 预测 数值 。 为 了 解决 这 个 任 
F, 学习 算法 需要 输出 函数 f R 一 民 。 除 了 返回 结果 的 形式 不 一 样 外 ， 这 类 
问题 和 分 类 问题 是 很 像 的 。 这 类 任务 的 一 个 示例 是 预测 投保 人 的 索赔 金额 (用 
于 设置 保险 费 )， 或 者 预测 证 券 未 来 的 价格 。 这 类 预测 也 用 在 算法 交易 中 。 


转录 : 这 类 任务 中 ， 机 器 学 习 系统 观 测 一 些 相对 非 结构 化 表示 的 数据 ， 并 转 
录 信 息 为 离散 的 文本 形式 。 例 如 ， 光 学 字符 识别 要 求 计算 机 程序 根据 文本 图 片 
返回 文字 序列 ( ASCII 码 或 者 Unicode 码 )。 谷歌 街景 以 这 种 方式 使 用 深度 学 
习 处 理 街道 编号 (Goodfellow et aL, 2014d)。 男 一 个 例子 是 语音 识别 ， 计 算 机 
程序 输入 一 段 音 频 波形 ， 输 出 一 序列 音频 记录 中 所 说 的 字符 或 单词 ID 的 编码 。 
深度 学 习 是 现代 语音 识别 系统 的 重要 组 成 部 分 ， 被 各 大 公司 广泛 使 用 ， 包 括 微 
软 , IBM 和 谷歌 (Hinton et al., 2012a)。 

















机 器 翻译 : 在 机 顺 翻 译 任务 中 ， 输 入 是 一 种 语言 的 符号 序列 ， 计 算 机 程序 必须 
将 其 转化 成 另 一 种 语言 的 符号 序列 。 这 通常 适用 于 自然 语言 ， 如 将 英语 译 成 
法 语 。 最 近 ， 深 度 学 习 已 经 开始 在 这 个 任务 上 产生 重要 影响 (Sutskever et al., 
2014; Bahdanau et al., 2015)。 


结构 化 输出 : 结构 化 输出 任务 的 输出 是 向 量 或 者 其 他 包含 多 个 值 的 数据 结构 ， 
并 且 构 成 输出 的 这 些 不 同 元 素 间 具有 重要 关系 。 这 是 一 个 很 大 的 范畴 ， 包 括 上 
述 转录 任务 和 翻译 任务 在 内 的 很 多 其 他 任务 。 例 如 语法 分 析 一 一 映射 自然 语言 
句子 到 语法 结构 树 ， 并 标记 树 的 节点 为 动词 、 名 词 、 副 词 等 等 。 参考 Collobert 
(2011) 将 深度 学 习 应 用 到 语法 分 析 的 示例 。 男 一 个 例子 是 图 像 的 像素 级 分 割 ， 
将 每 一 个 像素 分 配 到 特定 类 别 。 例 如 ,深度 学 习 可 用 于 标注 航拍 照片 中 的 道路 
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位 置 (Mnih and Hinton, 2010)。 在 这 些 标注 型 的 任务 中 ,输出 的 结构 形式 不 
需要 和 输入 尽 可 能 相似 。 例 如 ， 在 为 图 片 添加 描述 的 任务 中 ,计算 机 程序 观察 
到 一 幅 图 ， 输 出 描述 这 幅 图 的 自然 语言 句子 (Kiros et al., 2014a,b; Mao et al., 
2014; Vinyals et al., 2015b; Donahue et al., 2014; Karpathy and Li, 2015; Fang 
et al., 2015; Xu et al., 2015)。 这 类 任务 被 称 为 结构 化 输出 任务 是 因为 输出 值 之 
间 内 部 紧密 相关 。 例 如 ， 为 图 片 添加 标题 的 程序 输出 的 单词 必须 组 合成 一 个 通 
顺 的 句子 。 














异常 检测 : 在 这 类 任务 中 ， 计 算 机 程序 在 一 组 事件 或 对 象 中 筛选 ， 并 标记 不 正 
常 或 非典 型 的 个 体 。 异 常 检测 任务 的 一 个 示例 是 信用 卡 欺 诈 检 测 。 通 过 对 你 的 
购买 习惯 建 模 ， 信 用 卡 公司 可 以 检测 到 你 的 卡 是 否 被 滥用 。 如 果 窃 贼 窃 取 你 的 
信用 卡 或 信用 卡 信息 ， 穷 贼 采购 物品 的 分 布 通常 和 你 的 不 同 。 当 该 卡 发 生 了 不 
正常 的 购买 行为 时 ， 信 用 卡 公司 可 以 尽快 冻结 该 卡 以 防 欺诈 。 参 考 Chandola 
et al. (2009) 了 解 欺诈 检测 方法 。 


合成 和 采样 : 在 这 类 任务 中 ， 机 带 学 习 程 序 生成 一 些 和 训练 数据 相似 的 新 样本 。 
通过 机 带 学 习 ， 合 成 和 采样 可 能 在 媒体 应 用 中 非常 有 用 ， 可 以 避免 艺术 家 大 量 
昂贵 或 者 乏味 费时 的 手动 工作 。 例 如 ,视频 游戏 可 以 自动 生成 大 型 物体 或 风景 
的 纹理 ， 而 不 是 让 艺术 家 手动 标记 每 个 像素 (Luo et aL, 2013)。 在 某 些 情况 下 ， 
我 们 希望 采样 或 合成 过 程 可 以 根据 给 定 的 输入 生成 一 些 特定 类 型 的 输出 。 例 如 ， 
在 语音 合成 任务 中 ， 我 们 提供 书写 的 句子 ， 要 求 程序 输出 这 个 句子 语音 的 音频 
波形 。 这 是 一 类 结构 化 输出 任务 ,但 是 多 了 每 个 输入 并 非 只 有 一 个 正确 输出 的 
条 件 ， 并 且 我 们 明确 希望 输出 有 很 多 变化 ， 这 可 以 使 结果 看 上 去 更 加 自然 和 真 
实 。 











缺失 值 填补 : 在 这 类 任务 中 ， 机 噩 学 习 算 法 给 定 一 个 新 样本 rcm", 中 某 些 
元 素 zi 缺失 。 算 法 必须 填补 这 些 缺 失 值 。 


AR: 在 这 类 任务 中 ， 机 天 学 习 算 法 的 输入 是 ， 干 净 样 本 ZE R” 经 过 未 知 损 
坏 过 程 后 得 到 的 损坏 样本 xem". SAARI EAS ae 预测 干净 的 样本 
Z， 或 者 更 一 般 地 预测 条 件 概率 分 布 p(z | a). 


密度 估计 或 概率 质量 函数 估计 : 在 密度 估计 问题 中 ， 机 带 学 习 算 法 学 习 函 数 
Pmodel : R” =} R, 其 中 Pmodel(£) 可 以 解释 成 样本 采样 空间 的 概率 密度 函数 ( 如 
果 x 是 连续 的 ) 或 者 概率 质量 函数 ( 如 果 x 是 离散 的 )。 要 做 好 这 样 的 任务 
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( 当 我 们 讨论 性 能 度量 P 时 , 我 们 会 明确 定义 任务 是 什么 ), 算法 需要 学 习 观 测 
到 的 数据 的 结构 。 算 法 必须 知道 什么 情况 下 样本 聚集 出 现 ， 什 么 情况 下 不 太 可 
能 出 现 。 以 上 描述 的 大 多 数 任务 都 要 求学 习 算法 至 少 能 隐 式 地 捕获 概率 分 布 的 
结构 。 密 度 估计 可 以 让 我 们 显 式 地 捕获 该 分 布 。 原 则 上 ， 我们 可 以 在 该 分 布 上 
计算 以 便 解决 其 他 任务 。 例 如 ， 如 果 我 们 通过 密度 估计 得 到 了 概率 分 布 p(z2)， 
我 们 可 以 用 该 分 布 解决 缺失 值 填补 任务 。 如 果 x; 的 值 是 缺失 的 , 但 是 其 他 的 变 
量 值 si 已 知 ， 那 么 我 们 可 以 得 到 条 件 概率 分 布 ple: | 2_;)。 实 际 情况 中 ， 密 
度 估计 并 不 能 够 解决 所 有 这 类 问题 ， 因 为 在 很 多 情况 下 p(z) 是 难以 计算 的 。 


当然 ， 还 有 很 多 其 他 同类 型 或 其 他 类 型 的 任务 。 这 里 我 们 列举 的 任务 类 型 只 是 
用 来 介绍 机 噩 学 习 可 以 做 哪些 任务 ， 并 非 严格 地 定义 机 天 学 习 任 务 分 类 。 





5.1.2 ”性 能 度量 P 


为 了 评估 机 器 学 习 算 法 的 能 力 ， 我 们 必须 设计 其 性 能 的 定量 度量 。 通 常 性 能 度 
E P 是 特定 于 系统 执行 的 任务 T 而 言 的 。 

对 于 诸如 分 类 、 缺 失 输 入 分 类 和 转录 任务 ， 我 们 通常 度量 模型 的 准确 率 〈accu- 
racy )。 准 确 率 是 指 该 模型 输出 正确 结果 的 样本 比率 。 我 们 也 可 以 通过 错误 率 (error 
rate) 得 到 相同 的 信息 。 错 误 率 是 指 该 模型 输出 错误 结果 的 样本 比率 。 我 们 通常 把 错 
误 率 称 为 0 一 1 损失 的 期 望 。 在 一 个 特定 的 样本 上 ， 如 果 结 果 是 对 的 ,那么 0- 1 损 
失 是 0; 否则 是 1。 但 是 对 于 密度 估计 这 类 任务 而 言 ， 度 量 准 确 率 ， 错 误 率 或 者 其 他 
类 型 的 0 一 1 损失 是 没有 意义 的 。 反 之 ， 我 们 必须 使 用 不 同 的 性 能 度量 ,使 模型 对 每 
个 样本 都 输出 一 个 连续 数值 的 得 分 。 最 常用 的 方法 是 输出 模型 在 一 些 样 本 上 概率 对 
数 的 平均 值 。 

通常 ， 我 们 会 更 加 关注 机 融 学 习 算 法 在 未 观测 数据 上 的 性 能 如 何 ， 因 为 这 将 决 
其 在 实际 应 用 中 的 性 能 。 因 此 ， 我们 使 用 测试 集 (test set ) 数据 来 评估 系统 性 能 ， 
其 与 训练 机 器 学 习 系 统 的 训练 集 数据 分 开 。 

性 能 度量 的 选择 或 许 看 上 去 简单 且 客 观 ， 但 是 选择 一 个 与 系统 理想 表现 对 应 
的 性 能 度量 通常 是 很 难 的 。 

在 某 些 情况 下 ,这 是 因为 很 难 确定 应 该 度量 什么 。 例如， 在 执行 转录 任务 时 , 我 
们 是 应 该 度量 系统 转录 整个 序列 的 准确 率 ， 还 是 应 该 用 一 个 更 细 粒 度 的 指标 ， 对 序 
列 中 正确 的 部 分 元 素 以 正面 评价 ? 在 执行 回归 任务 时 ， 我 们 应 该 更 多 地 惩罚 频繁 犯 
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一 些 中 等 错误 的 系统 ， 还 是 较 少 犯错 但 是 犯 很 大 错误 的 系统 ?这 些 设计 的 选择 取决 
于 应 用 。 

还 有 一 些 情况 ， 我 们 知道 应 该 度量 哪些 数值 ， 但 是 度量 它们 不 太 现 实 。 这 种 情 
况 经 常 出 现在 密度 估计 中 。 很 多 最 好 的 概率 模型 只 能 隐 式 地 表示 概率 分 布 。 在 许多 
这 类 模型 中 ， 计 算 空间 中 特定 点 的 概率 是 不 可 行 的 。 在 这 些 情 况 下 ， 我 们 必须 设计 
一 个 仍然 对 应 于 设计 对 象 的 替代 标准 ， 或 者 设计 一 个 理想 标准 的 良好 近似 。 


5.1.3 Z E 


根据 学 习 过 程 中 的 不 同 经 验 ， 机 器 学 习 算 法 可 以 大 致 分 类 为 无 监督 (unsuper- 
vised ) 算法 和 监督 (supervised ) 算法 。 

本 书 中 的 大 部 分 学 习 算 法 可 以 被 理解 为 在 整个 数据 集 (dataset) 上 获取 经 验 。 
数据 集 是 指 很 多 样本 组 成 的 集合 ， 如 第 5.1.1 节 所 定义 的 。 有 时 我 们 也 将 样本 称 为 数 
据点 (data point )。 

Iris ( 六 尾 花卉 ) 数据 集 (Fisher, 1936) 是 统计 学 家 和 机 器 学 习 研 究 者 使 用 了 很 
久 的 数据 集 。 它 是 150 个 音 尾 花 开 植物 不 同 部 分 测量 结果 的 集合 。 每 个 单独 的 植物 
对 应 一 个 样本 。 每 个 样本 的 特征 是 该 植物 不 同 部 分 的 测量 结果 : ER BE SEHE 
度 、 花 办 长 度 和 花瓣 宽度 。 这 个 数据 集 也 记录 了 每 个 植物 属于 什么 品种 ， 其 中 共有 
三 个 不 同 的 品种 。 

无 监督 学 习 算 法 (unsupervised learning algorithm ) 训练 含有 很 多 特征 的 数据 
集 ， 然 后 学 习 出 这 个 数据 集 上 有 用 的 结构 性 质 。 在 深度 学 习 中 ， 我 们 通常 要 学 习 生 
成 数据 集 的 整个 概率 分 布 ， 显 式 地 ， 比 如 密度 估计 ， 或 是 隐 式 地 ， 比 如 合成 或 去 噪 。 
还 有 一 些 其 他 类 型 的 无 监督 学 习 任 务 ， 例 如 聚 类 ， 将 数据 集 分 成 相似 样本 的 集合 。 

监督 学 习 算 法 ( supervised learning algorithm ) 训练 含有 很 多 特征 的 数据 集 , 不 
过 数据 集中 的 样本 都 有 一 个 标签 (label ) 或 目标 (target). PUN, Iris 数据 集注 明 
了 每 个 高 尾 花 齐 样本 属于 什么 品种 。 监 督学 习 算法 通过 研究 Iris 数据 集 ， 学 习 如 何 
根据 测量 结果 将 样本 划分 为 三 个 不 同 品 种 。 

大 致 说 来 ,无 监督 学 习 涉 及 到 观察 随机 向 量 x 的 好 几 个 样本 ,试图 显 式 或 隐 式 
地 学 习 出 概率 分 布 p(x)， 或 者 是 该 分 布 一 些 有 意思 的 性 质 ; 而 监督 学 习 包 含 观察 随 
机 向 量 x 及 其 相关 联 的 值 或 向 量 y, 然后 从 x 预测 y, 通常 是 估计 p(y | x). 术语 监 
督学 习 (supervised learning ) 源 自 这 样 一 个 视角 ， 教员 或 者 老师 提供 目标 y 给 机 带 
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FIRR, 指导 其 应 该 做 什么 。 在 无 监督 学 习 中 , 没有 教员 或 者 老师 , 算法 必须 学 会 
在 没有 指导 的 情况 下 理解 数据 。 

无 监督 学 习 和 监督 学 习 不 是 严格 定义 的 术语 。 它 们 之 间 界 线 通常 是 模糊 的 。 很 
多 机 融 学 习 技 术 可 以 用 于 这 两 个 任务 。 例 如 ， 概 率 的 链 式 法 则 表明 对 于 向 量 x ER”, 
联合 分 布 可 以 分 解 成 


TL 


p(x) = LH» | pese) ca (5.1) 


i=l 





该 分 解 意味 着 我 们 可 以 将 其 拆 分 成 n 个 监督 学 习 问题 ， 来 解决 表面 上 的 无 监督 学 习 
z( 相 。 另 外 ,我们 求解 监督 学 习 问题 p(y | x) 时 ， 也 可 以 使 用 传统 的 无 监督 学 习 策略 
学 习 联合 分 布 p(x,y)， 然 后 推断 


x) Py) 
ply | x) X, rx NS 


尽管 无 监督 学 习 和 监督 学 习 并 非 完全 没有 交集 的 正式 概念 ， 它 们 确实 有 助 于 粗略 分 
类 我 们 研究 机 器 学 习 算法 时 遇 到 的 问题 。 传 统 地 ， 人 们 将 回归 、 分 类 或 者 结构 化 输 
出 问题 称 为 监督 学 习 。 支 持 其 他 任务 的 密度 估计 通常 被 称 为 无 监督 学 习 。 

学 习 范 式 的 其 他 变种 也 是 有 可 能 的 。 例 如 ， 半 监督 学 习 中 ， 一 些 样本 有 监督 目 
标 ， 但 其 他 样本 没有 。 在 多 实例 学 习 中 ， 样 本 的 整个 集合 被 标记 为 含有 或 者 不 含有 
该 类 的 样本 ， 但 是 集合 中 单独 的 样本 是 没有 标记 的 。 人 参考 Kotzias et al. (2015) T fif 
最 近 深 度 模 型 进行 多 实例 学 习 的 示例 。 

有 些 机 器 学 习 算 法 并 不 是 训练 于 一 个 固定 的 数据 集 上 。 例 如 ， 强 化 学 习 (rein- 
forcement learning ) 算法 会 和 环境 进行 交互 ， 所 以 学 习 系 统 和 它 的 训练 过 程 会 有 反 
馈 回 路 。 这 类 算法 超出 了 本 书 的 范畴 。 请 参考 Sutton and Barto (1998) 或 Bertsekas 
and Tsitsiklis (1996) 了 解 强化 学 习 相 关 知 识 ，Mnih and Kavukcuoglu (2013) 介绍 了 
强化 学 习 方向 的 深度 学 习 方 法 。 

大 部 分 机 器 学 习 算 法 简单 地 训练 于 一 个 数据 集 上 。 数 据 集 可 以 用 很 多 不 同方 式 
来 表示 。 在 所 有 的 情况 下 ， 数 据 集 都 是 样本 的 集合 ， 而 样本 是 特征 的 集合 。 

表示 数据 集 的 常用 方法 是 设计 和 矩阵 (design matrix )。 设 计 和 矩阵 的 每 一 行 包含 
一 个 不 同 的 样本 。 每 一 列 对 应 不 同 的 特征 。 例 如 ，Iris 数据 集 包含 150 个 样本 ， 每 
个 样本 有 4 个 特征 。 这 意味 着 我 们 可 以 将 该 数据 集 表示 为 设计 矩阵 X € R, H 
中 X, 表示 第 i 个 植物 的 苯 片 长 度 ，X;2 表示 第 i 个 植物 的 莹 片 宽度 等 等 。 我 们 在 
本 书 中 描述 的 大 部 分 学 习 算 法 都 是 讲述 它们 是 如 何 运 行 在 设计 矩阵 数据 集 上 的 。 


(5.2) 
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当然 ， 每 一 个 样本 都 能 表示 成 向 量 ， 并 且 这 些 向 量 的 大 小 相同 ， 才 能 将 一 个 数 
据 集 表示 成 设计 抢 阵 。 这 一 点 并 非 永远 可 能 。 例 如 ， 你 有 不 同 宽 度 和 高 度 的 照片 的 
集合 ， 那 么 不 同 的 照片 将 会 包含 不 同 数量 的 像素 。 因 此 不 是 所 有 的 照片 都 可 以 表示 
成 相同 长 度 的 向 量 。 第 9.7 节 和 第 十 章 将 会 介绍 如 何 处 理 这 些 不 同类 型 的 异 构 数据 。 
在 上 述 这 类 情况 下 ， 我 们 不 会 将 数据 集 表示 成 m 行 的 矩阵 ， 而 是 表示 成 m 个 元 素 
的 结合 : (a0, 23,... ,zz("}。 这 种 表示 方式 意味 着 样本 向 量 zx 和 a 可 以 有 不 
同 的 大 小 。 

在 监督 学 习 中 ,样本 包含 一 个 标签 或 目标 和 一 组 特征 。 例 如 ， 我 们 希望 使 用 学 
习 算 法 从 照片 中 识别 对 象 。 我 们 需要 明确 哪些 对 象 会 出 现在 每 张 照片 中 。 我 们 或 许 
会 用 数字 编码 表示 ， 如 0 表示 人 、1 表示 车 2 表示 猫 等 等 。 通常 在 处 理 包含 观 测 特 
征 的 设计 和 矩阵 X 的 数据 集 时 ， 我 们 也 会 提供 一 个 标签 向 量 y， 其 中 yi 表示 样本 i 
的 标签 。 

当然 ， 有 时 标签 可 能 不 止 一 个 数 。 例 如 ， 如 果 我 们 想 要 训练 语音 模型 转录 整个 
句子 ， 那 么 每 个 句子 样本 的 标签 是 一 个 单词 序列 。 

正如 监督 学 习 和 无 监督 学 习 没 有 正式 的 定义 ， 数 据 集 或 者 经 验 也 没有 严格 的 区 
分 。 这 里 介绍 的 结构 涵盖 了 大 多 数 情况 ， 但 始终 有 可 能 为 新 的 应 用 设计 出 新 的 结构 。 

















5.1.4 F: 线性 回归 


我 们 将 机 带 学 习 算 法 定义 为 ,通过 经 验 以 提高 计算 机 程序 在 某 些 任务 上 性 能 的 
算法 。 这 个 定义 有 点 抽象 。 为 了 使 这 个 定义 更 具体 点 ， 我 们 展示 一 个 简单 的 机 器 学 
习 示 例 : 线性 回归 (linear regression )。 当 我 们 介绍 更 多 有 助 于 理解 机 器 学 习 特 性 的 
概念 时 ， 我 们 会 反复 回顾 这 个 示例 。 

顾名思义 ,线性 回归 解决 回归 问题 。 换 言 之 , 我 们 的 目标 是 建立 一 个 系统 ,将 问 
量 ze R” 作为 输入 ,预测 标量 y E€ R 作为 输出 。 线 性 回归 的 输出 是 其 输入 的 线性 函 
数 。 令 9 表示 模型 预测 y 应 该 取 的 值 。 我 们 定义 输出 为 


少 = w' z, (5.3) 











其 中 we R” ft BR (parameter ) 向 量 。 

参数 是 控制 系统 行为 的 值 。 在 这 种 情况 下 ，w; 是 系数 ， 会 和 特征 v; 相 乘 之 
后 全 部 相 加 起 来 。 我 们 可 以 将 w 看 作 是 一 组 决定 每 个 特征 如 何 影 响 预 测 的 权重 
(weight )。 如 果 特 征 2, 对 应 的 权重 w BIEN, 那么 特征 的 值 增加 ， 我们 的 预测 值 d 





wwaibbt.com rH BL BL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
51 学 习 算 法 95 


也 会 增加 。 如 果 特 征 c; 对 应 的 权重 w 是 负 的 ， 那 么 特征 的 值 减少 ， 我 们 的 预测 值 
9 也 会 减少 。 如 果 特 征 权 重 的 大 小 很 大 ， 那 么 它 对 预测 有 很 大 的 影响 ; 如 果 特 征 权 重 

的 大 小 是 零 ， 那 么 它 对 预测 没有 影响 。 

因此 ， 我 们 可 以 定义 任务 T: 通过 输出 = wz 从 z 预测 y。 接 下 来 我 们 需要 
定义 性 能 度量 一 一 P。 

假设 我 们 有 m 个 输入 样本 组 成 的 设计 怎 阵 ， 我 们 不 用 它 来 训练 模型 ， 而 是 评 
估 模 型 性 能 如 何 。 我 们 也 有 每 个 样本 对 应 的 正确 值 y 组 成 的 回归 目标 向 量 。 因 为 这 
个 数据 集 只 是 用 来 评估 性 能 ， 我 们 称 之 为 测试 集 (test set). FAA Wii ee 
阵 记 作 X59, ， 回 归 目 标 向 量 记 作 yt, 

度量 模型 性 能 的 一 种 方法 是 计算 模型 在 测试 集 上 的 均 方 误差 (mean squared 
error )。 如 果 4459 表示 模型 在 测试 集 上 的 预测 值 ， 那 么 均 方 误差 表示 为 : 





1 
MSEie = — X (979 — LA 5.4 
test m 2. y )i (5.4) 


EDU E, 4 gles) = ytt 时 ， 我 们 会 发 现 误差 降 为 0。 我 们 也 可 以 看 到 


gles!) u y 699 2 


1 
MSEtest 于 ， 
m 2 














(5.5) 


所 以 当 预 测 值 和 目标 值 之 间 的 欧 几 里 得 距离 增加 时 ， 误 差 也 会 增加 。 

为 了 构建 一 个 机 带 学 习 算 法 ,我 们 需要 设计 一 个 算法 ,通过 观察 训练 集 
(XE) yltrain)) 获得 经 验 ， 减少 MSEtest 以 改进 权重 w 一 种 直观 方式 (我 们 
将 在 后 续 的 第 5.5.1 节 说 明 其 合法 性 ) 是 最 小 化 训练 集 上 的 均 方 误 差 ， 即 MSEuain。 


最 小 化 MSEuain， 我 们 可 以 简单 地 求解 其 导数 为 0 的 情况 : 

















VuMSEtrain = 0 (5.6) 
2 
= —Q 9| =0 (5.7) 
2 
1 (train) trai ? 
ERU |x w- Wai = 9 (5.8) 
m 2 
i : T beat : 
= Vu (xi rain) yy u gem (x rain) ay u yn) =Í (5.9) 


E V. (wr x(train)T y (rain) y _ 2w 和 train) (train) J yeye = 0 (5.10) 
=" 9 x (train) T x (train) w— 2 (train) T yftrain) 一 0 (5.11) 
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=> w= | XCrein)T (train) (5.12) 


通过 式 (5.12) 给 出 解 的 系统 方程 被 称 为 正规 方程 (normal equation) 。 计 算 
x (5.12) 构成 了 一 个 简单 的 机 器 学 习 算 法 。 图 5.1 展示 了 线性 回归 算法 的 使 用 示例 。 





à Linear regression example "T Optimization of w 
2 0.50 
1 4 0.45 
8 0.40 

> 0 = 
2 0.35 
=l 0.30 
-2 0.25 
73) 0.20 
一 1.0 一 0.5 0.0 05 1.0 0.5 1.0 1.5 
T1 w1 














图 5.1: 一 个 线性 回归 问题 ， 其 中 训练 集 包括 十 个 数据 点 ， 每 个 数据 点 包含 一 个 特征 。 因 为 只 有 一 
个 特征 ， 权 重 向 量 w 也 只 有 一 个 要 学 习 的 参数 wio (£) 我 们 可 以 观察 到 线性 回归 学 习 wa ， 从 而 
使 得 直线 y = wie 能 够 尽量 接近 穿 过 所 有 的 训练 点 。( 右 ) 标注 的 点 表示 由 正规 方程 学 习 到 的 wi 
的 值 ， 我 们 发 现 它 可 以 最 小 化 训练 集 上 的 均 方 误差 。 
































值得 注意 的 是 ， 术 语 线 性 回归 (linear regression ) 通常 用 来 指 稍微 复杂 一 些 ， 
附加 额外 参数 RET b) 的 模型 。 在 这 个 模型 中 ， 


j-—w zb, (5.13) 


因此 从 参数 到 预测 的 映射 仍 是 一 个 线性 函数 ， 而 从 特征 到 预测 的 映射 是 一 个 仿 射 函 
数 。 如 此 扩展 到 仿 射 函数 意味 着 模型 预测 的 曲线 仍然 看 起 来 像 是 一 条 直线 ， 只 是 这 
条 直线 没 必要 经 过 原点 。 除 了 通过 添加 偏 置 参数 5，， 我 们 还 可 以 使 用 仅 含 权重 的 模 
型 ,但 是 z 需要 增加 一 项 永远 为 1 的 元 素 。 对 应 于 额外 1 的 权重 起 到 了 偏 置 参数 的 
作用 。 当 我 们 在 本 书 中 提 到 仿 射 函数 时 ， 我 们 会 经 常 使 用 术语 “线性 ”。 

截 距 项 b 通常 被 称 为 仿 射 变换 的 偏 置 (bias) 参数 。 这 个 术语 的 命名 源 自 该 变 
换 的 输出 在 没有 任何 输入 时 会 偏 移 5。 它 和 统计 偏差 中 指 代 统 计 估计 算法 的 某 个 量 的 
期 望 估计 偏离 真实 值 的 意思 是 不 一 样 的 。 

线性 回归 当然 是 一 个 极其 简单 且 有 局 限 的 学 习 算 法 ， 但 是 它 提供 了 一 个 说 明 学 
习 算法 如 何 工作 的 例子 。 在 接 下 来 的 小 节 中 ,我 们 将 会 介绍 一 些 设计 学 习 算法 的 基 
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本 原则 ， 并 说 明 如 何 使 用 这 些 原 则 来 构建 更 复杂 的 学 习 算 法 。 


5.2 容量、 过 拟 合 和 欠 拟 合 


机 需 学 习 的 主要 挑战 是 我 们 的 算法 必须 能 够 在 先前 未 观测 的 新 输入 上 表现 良好 ， 
而 不 只 是 在 训练 集 上 表现 良好 。 在 先前 未 观测 到 的 输入 上 表现 良好 的 能 力 被 称 为 泛 
化 〈generalization )。 

通常 情况 下 ， 当 我 们 训练 机 器 学 习 模型 时 ， 我 们 可 以 使 用 某 个 训练 集 ， 在 训练 
集 上 计算 一 些 被 称 为 训练 误差 (training error) 的 度量 误差 ， 目 标 是 降低 训练 误差 。 
目前 为 止 , 我 们 讨论 的 是 一 个 简单 的 优化 问题 。 机 器 学 习 和 优化 不 同 的 地 方 在 于 , 我 
们 也 希望 泛 化 误差 ( generalization error ) ( 也 被 称 为 测试 误差 ( test error ) ) 很 低 。 
泛 化 误差 被 定义 为 新 输入 的 误差 期 望 。 这 里 ， 期 望 的 计算 基于 不 同 的 可 能 输入 ， 这 
些 输入 采 自 于 系统 在 现实 中 遇 到 的 分 布 。 

通常 ， 我 们 度量 模型 在 训练 集中 分 出 来 的 测试 集 (test set) 样本 上 的 性 能 ， 来 
评估 机 需 学 习 模型 的 泛 化 误差 。 

在 我 们 的 线性 回归 示例 中 ， 我 们 通过 最 小 化 训练 误差 来 训练 模型 ， 


1 
m (train) 


但 是 我 们 真正 关注 的 是 测试 误差 -sa |] XM) 一 tes 

当 我 们 只 能 观测 到 训练 集 时 ， 我 们 如 何 才能 影响 测试 集 的 性 能 呢 ? 统计 学 习 理 
论 (statistical learning theory ) 提供 了 一 些 答案 。 如 果 训 练 集 和 测试 集 的 数据 是 任 
意 收集 的 ， 那 么 我 们 能 够 做 的 确实 很 有 限 。 如 果 我 们 可 以 对 训练 集 和 测试 集 数 据 的 
收集 方式 有 些 假设 ,那么 我 们 能 够 对 算法 做 些 改进 。 

训练 集 和 测试 集 数据 通过 数据 集 上 被 称 为 数据 生成 过 程 (data generating pro- 
cess) 的 概率 分 布 生成 。 通 常 ， 我 们 会 做 一 系列 被 统称 为 独立 同 分 布 假设 〈i.i.d. 
assumption) 的 假设 。 该 假设 是 说 ， 每 个 数据 集中 的 样本 都 是 彼此 相互 独立 的 Cin- 
dependent )， 并 且 训 练 集 和 测试 集 是 同 分 布 的 (identically distributed )， 采 样 自 相 
同 的 分 布 。 这 个 假设 使 我 们 能 够 在 单个 样本 的 概率 分 布 描述 数据 生成 过 程 。 然 后 相 
同 的 分 布 可 以 用 来 生成 每 一 个 训练 样本 和 每 一 个 测试 样本 。 我 们 将 这 个 共享 的 潜在 
分 布 称 为 数据 生成 分 布 (data generating distribution )， 记 作 pasta。 这 个 概率 框架 
和 独立 同 分 布 假 设 允 许 我 们 从 数学 上 研究 训练 误差 和 测试 误差 之 间 的 关系 。 








(train) ho 一 ytan) (5.14) 
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我 们 能 观察 到 训练 误差 和 测试 误差 之 间 的 直接 联系 是 ， 随 机 模型 训练 误差 的 期 
望 和 该 模型 测试 误差 的 期 望 是 一 样 的 。 假 设 我 们 有 概率 分 布 p(z,y)， 从 中 重复 采样 
生成 训练 集 和 测试 集 。 对 于 某 个 固定 的 w， 训 练 集 误差 的 期 望 恰好 和 测试 集 误差 的 
期 望 一 样 ， 这 是 因为 这 两 个 期 望 的 计算 都 使 用 了 相同 的 数据 集 生 成 过 程 。 这 两 种 情 
况 的 唯一 区 别 是 数据 集 的 名 字 不 同 。 

当然 ， 当 我 们 使 用 机 融 学 习 算 法 时 ,我 们 不 会 提前 固定 参数 ， 然 后 从 数据 集中 采 
样 。 我 们 会 在 训练 集 上 采样 ， 然 后 挑选 参数 去 降低 训练 集 误 差 ， 然 后 再 在 测试 集 上 
采样 。 在 这 个 过 程 中 ， 测 试 误差 期 望 会 大 于 或 等 于 训练 误差 期 望 。 以 下 是 决定 机 带 
学 习 算 法 效果 是 否 好 的 因素 : 


1. 降低 训练 误差 。 
2. 缩小 训练 误差 和 测试 误差 的 差距 。 


这 两 个 因素 对 应 机 器 学 习 的 两 个 主要 挑战 : 欠 拟 合 (underfitting ) 和 过 拟 合 
Coverfitting )。 欠 拟 合 是 指 模型 不 能 在 训练 集 上 获得 足够 低 的 误差 。 而 过 拟 合 是 指 训 
练 误差 和 和 测试 误差 之 间 的 差距 太 大 。 

通过 调整 模型 的 容量 (capacity )， 我 们 可 以 控制 模型 是 否 偏 向 于 过 拟 合 或 者 欠 
拟 合 。 通 俗 地 ， 模 型 的 容量 是 指 其 拟 合 各 种 函数 的 能 力 。 容 量 低 的 模型 可 能 很 难 拟 
合 训 练 集 。 容 量 高 的 模型 可 能 会 过 拟 合 ， 因 为 记 住 了 不 适用 于 测试 集 的 训练 集 性 质 。 

一 种 控制 训练 算法 容量 的 方法 是 选择 假设 空间 (hypothesis space )， 即 学 习 算 
法 可 以 选择 为 解决 方案 的 函数 集 。 例 如 ， 线 性 回归 函数 将 关于 其 输入 的 所 有 线性 隆 
数 作为 假设 空间 。 广义 线性 回归 的 假设 空间 包括 多 项 式 函 数 ， 而 非 仅 有 线性 函数 。 这 
样 做 就 增加 了 模型 的 容量 。 

一 次 多 项 式 提供 了 我 们 已 经 熟悉 的 线性 回归 模型 ， 其 预测 如 下 : 


























9 =b+ wrz. (5.15) 


通过 引入 x? 作为 线性 回归 模型 的 另 一 个 特征 ， 我 们 能 够 学 习 关 于 z 的 二 次 函数 模 





j =b wir + wr’. (5.16) 


尽管 该 模型 是 输入 的 二 次 函数 , 但 输出 仍 是 参数 的 线性 函数 。 因 此 我 们 仍然 可 以 用 正 
规 方程 得 到 模型 的 闭 解 。 我 们 可 以 继续 添加 z 的 更 高 客 作 为 额外 特征 ， 例 如 下 面 的 
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9 次 多 项 式 : 


g=b+ > wis. (5.17) 
i=1 
当 机 器 学习 算 法 的 容量 适合 于 所 执行 任务 的 复杂 度 和 所 提供 训练 数据 的 数量 时 ， 
算法 效果 通常 会 最 佳 。 容 量 不 足 的 模型 不 能 解决 复杂 任务 。 容 量 高 的 模型 能 够 解决 
复杂 的 任务 ， 但 是 当 其 容量 高 于 任务 所 需 时 ， 有 可 能 会 过 拟 合 。 
图 5.2 展 示 了 这 个 原理 的 使 用 情况 。 我 们 比较 了 线性 ， 二 次 和 9 次 预测 器 拟 合 真 
实 二 次 函数 的 效果 。 线 性 函数 无 法 刻画 真实 函数 的 曲率 ， 所 以 欠 拟 合 。9 次 函数 能 够 
表示 正确 的 函数 ， 但 是 因为 训练 参数 比 训练 样本 还 多 ， 所 以 它 也 能 够 表示 无 限 多 个 
刚好 穿越 训练 样本 点 的 很 多 其 他 函数 。 我 们 不 太 可 能 从 这 很 多 不 同 的 解 中 选 出 一 个 
泛 化 良好 的 。 在 这 个 问题 中 ， 二 次 模型 非常 符合 任务 的 真实 结构 ， 因 此 它 可 以 很 好 
地 泛 化 到 新 数据 上 。 











Underfitting Appropriate capacity Overfitting 
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5.2: 我 们 用 三 个 模型 拟 合 了 这 个 训练 集 的 样本 。 训 练 数据 是 通过 随机 抽取 z 然后 用 二 次 函数 确 
定性 地 生成 y 来 合成 的 。( 左 ) 用 一 个 线性 函数 拟 合 数 据 会 导致 欠 拟 合 一 一 它 无 法 捕捉 数据 中 的 曲 
率 信息 。( 中 ) 用 二 次 函数 拟 合 数据 在 未 观察 到 的 点 上 泛 化 得 很 好 。 这 并 不 会 导致 明显 的 从 拟 合 或 
者 过 拟 合 。( 右 ) 一 个 9 阶 的 多 项 式 拟 合 数据 会 导致 过 拟 合 。 在 这 里 我 们 使 用 Moore-Penrose H 
逆 来 解 这 个 欠 定 的 正规 方程 。 得 出 的 解 能 够 精确 地 穿 过 所 有 的 训练 点 ， 但 可 惜 我 们 无 法 提取 有 效 
的 结构 信息 。 在 两 个 数据 点 之 间 它 有 一 个 真实 的 函数 所 不 包含 的 深谷 。 在 数据 的 左 侧 ， 它 也 会 急 
剧 增长 ， 而 在 这 一 区 域 真 实 的 函数 却 是 下 降 的 。 




























































































目前 为 止 , 我 们 探讨 了 通过 改变 输入 特征 的 数目 和 加 入 这 些 特征 对 应 的 参数 , 改 
变 模型 的 容量 。 事 实 上 ， 还 有 很 多 方法 可 以 改变 模型 的 容量 。 容 量 不 仅 取决 于 模型 
的 选择 。 模 型 规定 了 调整 参数 降低 训练 目标 时 ， 学 习 算 法 可 以 从 哪些 函数 族 中 选择 
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函数 。 这 被 称 为 模型 的 表示 容量 ( representational capacity )。 在 很 多 情况 下 ， 从 这 
些 函数 中 挑选 出 最 优 冰 数 是 非常 困难 的 优化 问题 。 实 际 中 ， 学 习 算 法 不 会 真 的 找到 
最 优 函 数 ， 而 仅 是 找到 一 个 可 以 大 大 降低 训练 误差 的 函数 。 额 外 的 限制 因素 ， 比 如 
优化 算法 的 不 完美 ， 意 味 着 学 习 算 法 的 有效 容量 (effective capacity ) 可 能 小 于 模型 
族 的 表示 容量 。 

提高 机 器 学 习 模型 泛 化 的 现代 思想 可 以 追溯 到 早 在 托 勒 密 时 期 的 哲学 家 的 思 
想 。 许 多 早期 的 学 者 提出 一 个 简约 原则 ， 现 在 广泛 被 称 为 奥 卡 姆 剃刀 ( Occam's 
razor ) (c. 1287-1387 )。 该 原则 指出 ， 在 同样 能 够 解释 已 知 观测 现象 的 假设 中 ， 我 们 
应 该 挑选 “最 简单 ”的 那 一 个 。 这 个 想法 是 在 20 世纪 ， 由 统计 学 习 理论 创始 人 形式 
化 并 精确 化 的 (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumer et al., 1989; 
Vapnik, 1995)。 

统计 学 习 理 论 提 供 了 量化 模型 容量 的 不 同方 法 。 在 这 些 中 , 最 有 名 的 是 Vapnik- 
Chervonenkis 维度 ( Vapnik-Chervonenkis dimension, VC )。VC 维度 量 二 元 分 类 
器 的 容量 。VC 维 定义 为 该 分 类 器 能 够 分 类 的 训练 样本 的 最 大 数目 。 假 设 存在 m 个 
不 同 z 点 的 训练 集 ， 分 类 器 可 以 任意 地 标记 该 m 个 不 同 的 xz 点 ，VC 维 被 定义 为 m 
的 最 大 可 能 值 。 

量化 模型 的 容量 使 得 统计 学 习 理 论 可 以 进行 量化 预测 。 统 计 学 习 理 论 中 最 重要 
的 结论 阐述 了 训练 误差 和 泛 化 误差 之 间 差 异 的 上 界 随 着 模型 容量 增长 而 增长 ， 但 
随 着 训练 样本 增多 而 下 降 (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumer 
et al., 1989; Vapnik, 1995). 这 些 边界 为 机 器 学 习 算 法 可 以 有 效 解决 问题 提供 了 理论 
验证 ， 但 是 它们 很 少 应 用 于 实际 中 的 深度 学 习 算法 。 一 部 分 原因 是 边界 太 松 ， 另 一 
部 分 原因 是 很 难 确定 深度 学 习 算 法 的 容量 。 由 于 有 效 容量 受 限 于 优化 算法 的 能 力 ， 
确定 深度 学 习 模 型 容量 的 问题 特别 困难 。 而 且 对 于 深度 学 习 中 的 一 般 非 凸 优 化 问题 ， 
我 们 只 有 很 少 的 理论 分 析 。 

我 们 必须 记 住 虽然 更 简单 的 孔 数 更 可 能 泛 化 ( 训练 误差 和 测试 误差 的 差距 小 )， 
但 我 们 仍然 需要 选择 一 个 充分 复杂 的 假设 以 达到 低 的 训练 误差 。 通常 ， 当 模型 容量 
上 逢 时， 训练 误 差 会 下 降 ， 直 到 其 渐 近 最 小 可 能 误差 〈 假 设 误差 度量 有 最 小 值 )。 通 
常 ， 泛 化 误差 是 一 个 关于 模型 容量 的 U JÉHRZEPBATK. WA 5.3 所 示 。 

为 考虑 容量 任意 高 的 极端 情况 ， 我 们 介绍 非 参数 (non-parametric) 模型 的 概 
念 。 至 此 ,我们 只 探讨 过 参数 模型 ， 例 如 线性 回归 。 参 数 模 型 学 习 到 的 函数 在 观测 新 
数据 前 ， 参 数 是 有 限 且 固定 的 向 量 。 非 参数 模型 没有 这 些 限 甫 
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图 5.3: 容量 和 误差 之 间 的 典型 关系 。 训 练 误差 和 测试 误差 表现 得 非常 不 同 。 在 图 的 左 端 ， 训 练 误 
差 和 泛 化 误差 都 非常 高 。 这 是 欠 拟 合 机 制 (underfitting regime )。 当 我 们 增加 容量 时 , 训练 误差 减 
小 , 但 是 训练 误差 和 泛 化 误差 之 间 的 间距 却 不 断 扩 大 。 最 终 ， 这 个 间距 的 大 小 超过 了 训练 误差 的 下 
降 ， 我 们 进入 到 了 过 拟 合 机 制 (overfitting regime )， 其 中 容量 过 大 ， 超 过 了 最 佳 容量 (optimal 
capacity ). 














有 时 ， 非 参数 模型 仅 是 一 些 不 能 实际 实现 的 理论 抽象 ( 比如 搜索 所 有 可 能 概率 
分 布 的 算法 )。 然 而 ,我 们 也 可 以 设计 一 些 实用 的 非 参 数 模型 ， 使 它们 的 复杂 度 和 训 
练 集 大 小 有 关 。 这 种 算法 的 一 个 示例 是 最 近邻 回归 (nearest neighbor regression )。 
不 像 线 性 回归 有 固定 长 度 的 向 量 作 为 权重 ， 最 近邻 回归 模型 存储 了 训练 集中 所 有 的 
X fll yy。 当 需 要 为 测试 点 z 分 类 时 ， 模 型 会 查询 训练 集中 离 该 点 最 近 的 点 ， 并 返回 
相关 的 回归 目标 。 换 言 之 , G=y 其 中 i = arg min |X; — zl。 该 算法 也 可 以 扩展 
mM DL? 范 数 以 外 的 距离 度量 , 例如 学 成 距离 度量 (Goldberger et al., 2005)。 如 果 人 允许 
该 算法 通过 平均 Xj. 中 所 有 邻近 的 向 量 对 应 的 y; 来 打破 联系 ,那么 该 算法 会 在 任意 
回归 数据 集 上 达到 最 小 可 能 的 训练 误差 ( 如 果 存 在 两 个 相同 的 输入 对 应 不 同 的 输出 ， 
那么 训练 误差 可 能 会 大 于 零 )。 

最 后 ， 我 们 也 可 以 将 参数 学 习 算 法 舰 入 男 一 个 增加 参数 数目 的 算法 来 创建 非 参 
数学 习 算 法 。 例 如 ， 我 们 可 以 想象 这 样 一 个 算法 ， 外 层 循环 调整 多 项 式 的 次 数 ， 内 
层 循 环 通过 线性 回归 学 习 模 型 。 

理想 模型 假设 我 们 能 够 预先 知道 生成 数据 的 真实 概率 分 布 。 然 而 这 样 的 模型 仍 
然 会 在 很 多 问题 上 发 生 一 些 错 误 ， 因 为 分 布 中 仍然 会 有 一 些 噪声 。 在 监督 学 习 中 , 从 
z 到 y 的 映射 可 能 内 在 是 随机 的 ,或 者 y 可 能 是 其 他 变量 (包括 z 在 内 ) 的 确定 性 
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函数 。 从 预先 知道 的 真实 分 布 p(z,y) 预测 而 出 现 的 误差 被 称 为 贝 叶 斯 误差 ( Bayes 
error Jo 

训练 误差 和 泛 化 误差 会 随 训练 集 的 大 小 发 生变 化 。 泛 化 误差 的 期 望 从 不 会 因 训 
练 样本 数目 的 增加 而 增加 。 对 于 非 参数 模型 而 言 ， 更 多 的 数据 会 得 到 更 好 的 泛 化 能 
力 ， 直 到 达到 最 佳 可 能 的 泛 化 误差 。 任 何 模 型 容量 小 于 最 优 容量 的 固定 参数 模型 会 
渐 近 到 大 于 贝 叶 斯 误差 的 误差 值 。 如 图 5.4 所 示 。 值 得 注意 的 是 ， 具 有 最 优 容量 的 模 
型 仍然 有 可 能 在 训练 误差 和 泛 化 误差 之 间 存 在 很 大 的 差距 。 在 这 种 情况 下 ， 我 们 可 
以 通过 收集 更 多 的 训练 样本 来 缩小 差距 。 








5.2.1 ”没有 免费 午餐 定理 


学 习 理论 表明 机 器 学 习 算法 能 够 在 有 限 个 训练 集 样本 中 很 好 地 泛 化 。 这 似乎 韦 
背 一 些 基本 的 逻辑 原则 。 归 纳 推理 ， 或 是 从 一 组 有 限 的 样本 中 推断 一 般 的 规则 ， 在 
逻辑 上 不 是 很 有 效 。 为 了 逻辑 地 推 电 一 个 规则 去 描述 集合 中 的 元 素 ， 我 们 必须 具有 
集合 中 每 个 元 素 的 信息 。 

在 一 定 程度 上 上 ， 机 器 学 习 仅 通过 概率 法 则 就 可 以 避免 这 个 问题 ， 而 无 需 使 用 纯 
逻辑 推理 整个 确定 性 法 则 。 机 器 学 习 保证 找到 一 个 在 所 关注 的 大 多 数 样本 上 可 能 
确 的 规则 。 

可 惜 ， 即 使 这 样 也 不 能 解决 整个 问题 。 机 器 学 习 的 没有 免费 午餐 定理 (no free 
lunch theorem ) 表明 ， 在 所 有 可 能 的 数据 生成 分 布 上 平均 之 后 ， 每 一 个 分 类 算法 在 
未 事先 观测 的 点 上 都 有 相同 的 错误 率 。 换言之 , 在 某 种 意义 上 , 没有 一 个 机 器 学 习 算 
法 总 是 比 其 他 的 要 好 。 我 们 能 够 设想 的 最 先进 的 算法 和 简单 地 将 所 有 点 归 为 同一 类 
的 简单 算法 有 着 相同 的 平均 性 能 ( 在 所 有 可 能 的 任务 上 )。 

幸运 的 是 ， 这 些 结论 仅 在 我 们 考虑 所 有 可 能 的 数据 生成 分 布 时 才 成 立 。 在 真实 
世界 应 用 中 ， 如 果 我 们 对 遇 到 的 概率 分 布 进行 假设 的 话 ， 那 么 我 们 可 以 设计 在 这 些 
分 布 上 效果 良好 的 学 习 算法 。 

这 意味 着 机 器 学 习 研 究 的 目标 不 是 找 一 个 通用 学 习 算法 或 是 绝对 最 好 的 学 习 算 
法 。 反 之 ,我 们 的 目标 是 理解 什么 样 的 分 布 与 人 工 智能 获取 经 验 的 “真实 世界 ” 相 
关 ， 什 么 样 的 学 习 算法 在 我 们 关注 的 数据 生成 分 布 上 效果 最 好 。 
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52 容量 、 过 拟 合 和 欠 拟 合 


Error (MSE 


Optimal capacity (polynomial degree) 


图 5.4: 训练 集 大 小 对 训练 误差 ， 测 试 误差 以 及 最 佳 容量 的 影响 。 通 过 给 一 个 5 阶 多 项 式 添加 适当 
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Bayes error 
Train (quadratic) 
Test (quadratic) 


Test (optimal capacity) 


Train (optimal capacity) 
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大 小 的 噪声 ， 我 们 构造 了 一 个 合成 的 回归 问题 ， 生 成 单个 测试 集 ， 然 后 生成 一 些 不 同 尺 才 的 训练 
集 。 为 了 描述 95% 置信 区 间 的 误差 条 ， 对 于 每 一 个 尺寸 ,我 们 生成 了 40 个 不 同 的 训练 集 。( 上 ) 





两 个 不 同 的 模型 上 训练 集 和 

















差 来 选择 。 两 个 模型 都 是 / 

















的 假设 越 来 越 少 。 二 次 模型 




















测试 集 的 MSE， 一 个 二 次 模型 ， 另 一 个 模型 的 阶 数 通 过 最 小 化 测试 误 
j 闭 式 解 来 拟 合 。 对 于 二 次 模型 来 说 ， 当 训练 集 增加 时 训练 误差 也 随 之 
增 大 。 这 是 由 于 越 大 的 数据 集 越 难以 拟 合 。 同 时 ， 测 试 误差 随 之 减 小 ,因为 关于 训练 数据 的 不 正确 
的 容量 并 不 足以 解决 这 个 问题 ， 所 以 它 的 测试 误差 趋 近 于 一 个 较 高 的 
































值 。 最 佳 容量 点 处 的 测试 误差 趋 近 于 贝 叶 斯 误差 。 训 练 误差 可 以 低 于 贝 叶 斯 误差 ,因为 训练 算法 有 
能 力 记 住 训练 集中 特定 的 样本 。 当 训练 集 趋向 于 无 穷 大 时 ,任何 固定 容量 的 模型 ( 在 这 里 指 的 是 








二 次 模型 ) 的 训练 误差 都 至 





用 最 优 多 项 式 回 归顺 的 阶 数 衡量 上 











不 再 增长 了 。 
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少 增 至 贝 叶 斯 误差 。( 下 ) 当 训 练 集 大 小 增 大 时 ， 最 佳 容量 ( 在 这 里 是 
S) 也 会 随 之 增 大 。 最 佳 容量 在 达到 足够 捕捉 模型 复杂 度 之 后 就 
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5.2.2 ”正则 化 


没有 免费 午餐 定理 暗示 我 们 必须 在 特定 任务 上 设计 性 能 恨 好 的 机 器 学 习 算法 。 
我 们 建立 一 组 学 习 算 法 的 仿 好 来 达到 这 个 要 求 。 当 这 些 偏好 和 我 们 希望 算法 解决 的 
学 习 问 题 相 吻合 时 ， 性 能 会 更 好 。 

至 此 ， 我 们 具体 讨论 修改 学 习 算法 的 方法 上 只有， 通过 增加 或 减少 学 习 算 法 可 选 
假设 空间 的 函数 来 增加 或 减少 模型 的 容量 。 我 们 列举 的 一 个 具体 示例 是 线性 回归 增 
加 或 减少 多 项 式 的 次 数 。 目 前 为 止 讨论 的 观点 都 是 过 度 简化 的 。 

算法 的 效果 不 仅 很 大 程度 上 受 影响 于 假设 空间 的 函数 数量 ， 也 取决 于 这 些 函 数 
的 具体 形式 。 我 们 已 经 讨论 的 学 习 算法 (线性 回归 ) 具有 包含 其 输入 的 线性 函数 集 
的 假设 空间 。 对 于 输入 和 输出 确实 接近 线性 相关 的 问题 ， 这 些 线性 函数 是 很 有 用 的 。 
对 于 完全 非 线性 的 问题 它们 不 太 有 效 。 例 如 ,我 们 用 线性 回归 ,从 c 预测 sin(z), XX 
果 不 会 好 。 因 此 我 们 可 以 通过 两 种 方式 控制 算法 的 性 能 ,一 是 允许 使 用 的 函数 种 类 ， 
二 是 这 些 函数 的 数量 。 

在 假设 空间 中 ， 相 比 于 某 一 个 学 习 算法 ,我们 可 能 更 侦 好 另 一 个 学 习 算法 。 这 
意味 着 两 个 函数 都 是 符合 条 件 的 ， 但 是 我 们 更 偏好 其 中 一 个 。 只 有 非 偏好 函数 比 偏 
好 函数 在 训练 数据 集 上 效果 明显 好 很 多 时 ,我 们 才 会 考虑 非 偏好 函数 。 

例如 ,我 们 可 以 加 入 NERI (weight decay ) 来 修改 线性 回归 的 训练 标准 。 带 
权重 衰减 的 线性 回归 最 小 化 训练 集 上 的 均 方 误差 和 正则 项 的 和 J(w)， 其 偏好 于 平方 
L? 范 数 较 小 的 权重 。 具 体 如 下 : 


J(w) = MSEtrain + Aw! w, (5.18) 


其 中 A 是 提前 挑选 的 值 ， 控 制 我 们 偏好 小 范 数 权重 的 程度 。 当 和 = 0， 我 们 没有 任 
何 偏 好 。 越 大 的 和 偏好 范 数 越 小 的 权重 。 最 小 化 7(w) 可 以 看 作 是 拟 合 训练 数据 和 
偏好 小 权重 范 数 之 间 的 权衡 。 这 会 使 得 解决 方案 的 斜率 较 小 ， 或 是 将 权重 放 在 较 少 
的 特征 上 。 我 们 可 以 训练 具有 不 同 和 值 的 高 次 多 项 式 回归 模型 ， 来 举例 说 明 如 何 通 
过 权重 衰减 控制 模型 欠 拟 合 或 过 拟 合 的 趋势 。 如 图 5.5 所 示 。 

更 一 般 地 ， 正 则 化 一 个 学 习 函 数 f(z; 9) 的 模型 ， 我 们 可 以 给 代价 函数 添加 被 称 
为 正则 化 项 ( regularizer ) 的 惩罚 。 在 权重 衰减 的 例子 中 , 正则 化 项 是 Q(w) = wl w 
在 第 七 章 ， 我 们 将 看 到 很 多 其 他 可 能 的 正则 化 项 。 

表示 对 函数 的 偏好 是 比 增 减 假设 空间 的 成 员 函 数 更 一 般 的 控制 模型 容量 的 方法 。 
我 们 可 以 将 去 掉 假设 空间 中 的 某 个 函数 看 作 是 对 不 赞成 这 个 函数 的 无 限 偏好 。 
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Underfitting Appropriate weight decay Overfitting 
(Excessive A) (Medium A) (A0) 


20 To To 














图 5.5: 我 们 使 用 高 阶 多 项 式 回归 模型 来 拟 合 图 5.2 中 训练 样本 。 真 实 函 数 是 二 次 的 ， 但 是 在 这 里 
我 们 只 使 用 9 阶 多 项 式 。 我 们 通过 改变 权重 衰减 的 量 来 避免 高 阶 模型 的 过 拟 合 问题 。( 左 ) 当 A dE 
常 大 时 ,我们 可 以 强迫 模型 学 习 到 了 一 个 没有 和 斜率 的 函数 。 由 于 它 只 能 表示 一 个 常数 函数 ， 所 以 
会 导致 欠 拟 合 。( 中 ) 取 一 个 适当 的 A 时 ， 学 习 算 法 能 够 用 一 个 正常 的 形状 来 恢复 曲率 。 即 使 模型 
能 够 用 更 复杂 的 形状 来 来 表示 函数 ， 权 重 衰减 鼓励 用 一 个 带 有 更 小 参数 的 更 简单 的 模型 来 描述 它 。 
(E) 当权 重 衰减 趋 近 于 0 (BEH Moore-Penrose 伪 逆 来 解 这 个 带 有 最 小 正则 化 的 欠 定 问题 ) 时 ， 
这 个 9 阶 多 项 式 会 导致 严重 的 过 拟 合 ， 这 和 我 们 在 图 5.2 中 看 到 的 一 样 。 





























































































































在 我 们 权重 衰减 的 示例 中 ， 通 过 在 最 小 化 的 目标 中 额外 增加 一 项 ， 我 们 明确 地 
表示 了 偏好 权重 较 小 的 线性 函数 。 有 很 多 其 他 方法 隐 式 或 显 式 地 表示 对 不 同 解 的 偏 
好 。 总 而 言 之 ， 这 些 不 同 的 方法 都 被 称 为 正则 化 (regularization )。 正 则 化 是 指 我 们 
修改 学 习 算 法 ,使 其 降低 泛 化 误差 而 非 训 练 误差 。 正 则 化 是 机 带 学 习 领 域 的 中 心间 
题 之 一 ， 只 有 优化 能 够 与 其 重要 性 相 媲 。 

没有 免费 午餐 定理 已 经 清楚 地 阐述 了 没有 最 优 的 学 习 算 法 ， 特 别 地 ， 没 有 最 优 
的 正则 化 形式 。 反 之 ， 我 们 必须 挑选 一 个 非常 适合 于 我 们 所 要 解决 的 任务 的 正则 形 
式 。 深 度 学 习 中 普遍 的 (特别 是 本 书 中 的 ) 理念 是 大 量 任务 (例如 所 有 人 类 能 做 的 
智能 任务 ) 也 许 都 可 以 使 用 非常 通用 的 正则 化 形式 来 有 效 解决 。 











5.3” 超 参数 和 验证 集 


大 多 数 机 器 学 习 算法 都 有 超 参数 ， 可 以 设置 来 控制 算法 行为 。 超 参数 的 值 不 是 
通过 学 习 算法 本 里 学 习 出 来 的 (尽管 我 们 可 以 设计 一 个 嵌 套 的 学 习 过 程 ， 一 个 学 习 
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算法 为 男 一 个 学 习 算 法 学 出 最 优 超 参数 )。 

在 图 5.2 所 示 的 多 项 式 回 归 示 例 中 ， 有 一 个 超 参数 ， 多 项 式 的 次 数 ， 作 为 容量 超 
参数 。 控 制 权重 衰减 程度 的 入 是 另 一 个 超 参数 。 

有 了 时 一 个 选项 被 设 为 学 习 算法 不 用 学 习 的 超 参 数 ， 是 因为 它 太 难 优化 了 。 更 多 
的 情况 是 ， 该 选项 必须 是 超 参 数 ， 因 为 它 不 适合 在 训练 集 上 学 习 。 这 适用 于 控制 模 
型 容量 的 所 有 超 参 数 。 如 果 在 训练 集 上 学 习 超 参数 ， 这 些 超 参数 总 是 趋向 于 最 大 可 
能 的 模型 容量 ， 导 致 过 拟 合 ( 参考 图 5.3 )。 例 如 ， 相 比 低 次 多 项 式 和 正 的 权重 衰减 
设 定 ， 更 高 次 的 多 项 式 和 权重 衰减 参数 设 定 入 — 0 总 能 在 训练 集 上 更 好 地 拟 合 。 

为 了 解决 这 个 问题 ， 我 们 需要 一 个 训练 算法 观测 不 到 的 验证 集 ( validation set ) 
样本 。 

早先 我 们 讨论 过 和 训练 数据 相同 分 布 的 样本 组 成 的 测试 集 ， 它 可 以 用 来 估计 学 
习 过 程 完成 之 后 的 学 习 器 的 泛 化 误差 。 其 重点 在 于 测试 样本 不 能 以 任何 形式 参与 到 
模型 的 选择 中 ， 包 括 设 定 超 参数 。 基 于 这 个 原因 ， 测试 集中 的 样本 不 能 用 于 验证 集 。 
因此 ， 我 们 总 是 从 训练 数据 中 构建 验证 集 。 特别 地 ， 我 们 将 训练 数据 分 成 两 个 不 相 
交 的 子 集 。 其 中 一 个 用 于 学 习 参 数 。 另 一 个 作为 验证 集 ， 用 于 估计 训练 中 或 训练 后 
的 泛 化 误差 ， 更 新 超 参 数 。 用 于 学 习 参 数 的 数据 子 集 通 销 仍 被 称 为 训练 集 ， 尽 管 这 
会 和 整个 训练 过 程 用 到 的 更 大 的 数据 集 相 混 。 用 于 挑选 超 参数 的 数据 子 集 被 称 为 验 
证 集 (validation set ). HA, 80% 的 训练 数据 用 于 训练 ，20% 用 于 验证 。 由 于 验证 
集 是 用 来 “训练 ” 超 参数 的 ， 尽管 验 证 集 的 误差 通常 会 比 训练 集 误差 小 ， 验 证 集会 低 
佑 泛 化 误差 。 所 有 超 参 数 优化 完成 之 后 ， 泛 化 误差 可 能 会 通过 测试 集 来 估计 。 

在 实际 中 ， 当 相同 的 测试 集 已 在 很 多 年 中 重复 地 用 于 评估 不 同 算法 的 性 能 ， 并 
且 考 虑 学 术 界 在 该 测试 集 上 的 各 种 和 尝试， 我 们 最 后 可 能 也 会 对 测试 集 有 着 乐观 的 估 
计 。 基 准 会 因 之 变 得 陈旧 ， 而 不 能 反映 系统 的 真实 性 能 。 值 得 庆幸 的 是 ,学 术 界 往往 
会 移 到 新 的 ( 通常 会 更 巨大 、 更 具 挑 战 性 ) 基准 数据 集 上 。 





























5.3.1 ”交叉 验证 


将 数据 集 分 成 固定 的 训练 集 和 固定 的 测试 集 后 ， 若 测试 集 的 误差 很 小 ， 这 将 是 
有 问题 的 。 一 个 小 规模 的 测试 集 意味 着 平均 测试 误差 估计 的 统计 不 确定 性 ， 使 得 很 
难 判断 算法 A 是 否 比 算法 B 在 给 定 的 任务 上 做 得 更 好 。 

当 数 据 集 有 十 万 计 或 者 更 多 的 样本 时 ， 这 不 会 是 一 个 严重 的 问题 。 当 数据 集 太 
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小 时 ， 也 有 替代 方法 允许 我 们 使 用 所 有 的 样本 估计 平均 测试 误差 ， 代 价 是 增加 了 计 
算 量 。 这 些 过 程 是 基于 在 原始 数据 上 随机 采样 或 分 离 出 的 不 同 数据 集 上 重复 训练 和 
测试 的 想法 。 最 常见 的 是 k&- 折 交 义 验证 过 程 ， 如 算法 5.1 所 示 ， 将 数据 集 分 成 个 
不 重合 的 子 集 。 测 试 误差 可 以 估计 为 次 计算 后 的 平均 测试 误差 。 在 第 i 次 测试 时 ， 
数据 的 第 i 个 子 集 用 于 测试 集 ， 其 他 的 数据 用 于 训练 集 。 带 来 的 一 个 问题 是 不 存在 
平均 误差 方差 的 无 偏 估计 (Bengio and Grandvalet, 2004), ， 但 是 我 们 通常 会 使 用 近 
似 来 解决 。 




















算法 5.1 k- 折 交叉 验证 算法 。 当 给 定数 据 集 DD 对 于 简单 的 训练 /测试 或 训练 /验证 分 
割 而 言 太 小 难以 产生 泛 化 误差 的 准确 估计 时 ( 因为 在 小 的 测试 集 上 , L 可 能 具有 过 
高 的 方差 )，k- 折 交叉 验证 算法 可 以 用 于 估计 学 习 算 法 A 的 泛 化 误差 。 数 据 集 卫 包 
含 的 元 素 是 抽象 的 样本 2 ( 对 于 第 i 个 样本 )， 在 监督 学 习 的 情况 代表 (输入 ， 目 
ER) 对 20 = (2 yO) ， 或 者 无 监督 学 习 的 情况 下 仅 用 于 输入 x = a0, 该 算法 
返回 D 中 每 个 示例 的 误差 向 量 e， 其 均值 是 估计 的 泛 化 误差 。 单 个 样本 上 的 误差 可 
用 于 计算 平均 值 周围 的 置信 区 间 ( 式 (5.47) )。 虽 然 这 些 置 信 区 间 在 使 用 交叉 验证 之 
后 不 能 很 好 地 证 明 ， 但 是 通常 的 做 法 是 只 有 当 算 法 4 误差 的 置信 区 间 低 于 并 且 不 与 
算法 B 的 置信 区 间 相 交 时 ， 我 们 才 声 明 算法 A 比 算法 B 更 好 。 

Define KFoldXV(D, A, L, k): 

Require: D 为 给 定数 据 集 ， 其 中 元 素 为 2 

Require: A 为 学 习 算 法 ,可 视 为 一 个 函数 (使 用 数据 集 作 为 输入 , 输出 一 个 学 好 的 













































































函数 ) 
Require: L 为 损失 函数 ， 可 视 为 来 自学 好 的 函数 上 六， 将 样本 2 © D 映射 到 及 中 
标量 的 函数 


Require: 上 为 折 数 
将 D 分 为 天 个 互 斥 子 集 Di， 它们 的 并 集 为 
for i from 1 to k do 
fi = A(DVD;) 
for z in D; do 
e; = L(fi,2) 


end for 























d 












































end for 


Return e 
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5.4 ”估计 、 偏 差 和 方差 


统计 领域 为 我 们 提供 了 很 多 工具 来 实现 机 器 学 习 目 标 ， 不 仅 可 以 解决 训练 集 上 
的 任务 ,还 可 以 泛 化 。 基 本 的 概念 ， 例 如 参数 估计、 侦 差 和 方差 ， 对 于 正式 地 刻画 泛 
化 、 欠 拟 合 和 过 拟 合 都 非常 有 帮助 。 














5.4.1 点 估计 


点 估计 试图 为 一 些 感 兴趣 的 量 提供 单个 “最 优 ” 预 测 。 一般 地 ， 感 兴趣 的 量 可 以 
是 单个 参数 ， 或 是 某 些 参数 模型 中 的 一 个 向 量 参数 ， 例 如 第 5.1.4 节 线性 回归 中 的 权 
重 ， 但 是 也 有 可 能 是 整个 函数 。 

为 了 区 分 参数 估计 和 真实 值 ， 我 们 习惯 将 参数 9 的 点 估计 表示 为 6。 

S (a(0,... a0) 是 m 个 独立 同 分 布 (ii.d. ) 的 数据 点 。 点 估计 (point esti- 
mator ) 或 统计 量 (statistics ) 是 这 些 数据 的 任意 函数 : 


6, = g(a P, .. ., 0). (5.19) 


这 个 定义 不 要 求 g 返回 一 个 接近 真实 9 E, RE g 的 值 域 恰好 是 9 的 允许 取 值 
范围 。 点 估计 的 定义 非常 宽泛 ， 给 了 估计 量 的 设计 者 极 大 的 灵活 性 。 虽 然 几 乎 所 有 
的 函数 都 可 以 称 为 佑 计量， 但 是 二 个 良好 的 佑 计量 的 输出 会 接近 生成 训练 数据 的 真 
实 参数 0。 

现在 ,我 们 采取 频率 派 在 统计 上 的 观点 。 换 言 之 ,我 们 假设 真实 参数 0 是 固定 
但 未 知 的 ， 而 点 估计 e 是 数据 的 函数 。 由 于 数据 是 随机 过 程 采样 出 来 的 ， 数 据 的 任 
何 函 数 都 是 随机 的 。 因 此 6 是 一 个 随机 变量 。 

点 估计 也 可 以 指 输入 和 目标 变量 之 间 关 系 的 估计 。 我 们 将 这 种 类 型 的 点 估计 称 
为 函数 估计 。 


函数 估计 有 时 我 们 会 关注 函数 估计 (或 函数 近似 )。 这 时 我 们 试图 从 输入 向 量 x 预 
测 变 量 y。 我 们 假设 有 一 个 函数 f(x) 表示 y 和 zx 之 间 的 近似 关系 。 例如， 我 们 可 能 
假设 y= f(x) te, Heh e 是 y 中 未 能 从 a 预测 的 一 部 分 。 在 函数 估计 中 ， 我们 感 
兴趣 的 是 用 模型 估计 去 近似 f， 或 者 估计 f. 函数 估计 和 估计 参数 9 是 一 样 的 ; P 
数 估计 f 是 函数 空间 中 的 一 个 点 估计 。 线 性 回归 示例 (第 5.1.4 节 中 讨论 的 ) 和 多 项 
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式 回归 示例 (第 5.2 节 中 讨论 的 ) 都 既 可 以 被 解释 为 估计 参数 w， 又 可 以 被 解释 为 估 
计 从 z 到 y 的 函数 映射 fo 


5.4.2 ”偏差 





估计 的 偏差 被 定义 为 : 











bias(0,,) = E(0,,) — 9, (5.20) 
其 中 期 望 作用 在 所 有 数据 (看 作 是 从 随机 变量 采样 得 到 的 ) b, 0 是 用 于 定义 数 
据 生 成 分 布 的 9 的 真实 值 。 如 果 bias(0,,) = 0， 那 么 估计 量 Ôm 被 称 为 是 无 偏 
(unbiased )， 这 意味 着 E(0,,) = 0, WR limp so bias(0,,) 二 0， 那么 估计 量 Ôm 被 
称 为 是 渐 近 无 偏 (asymptotically unbiased )， 这 意味 着 lim,, yo E(0,,) = 0。 






































示例 : 伯 努 利 分 布 考虑 一 组 服从 均值 为 8 的 伯 努 利 分 布 的 独立 同 分 布 的 样本 
Ig lug 



































P(2; 0) = 67° (1 — 00 =À (5.21) 
这 个 分 布 中 参数 9 的 常用 估计 量 是 训练 样本 的 均值 : 
jl eo 
bm = — » (5.22) 
判断 这 个 估计 量 是 否 有 偏 ， 我 们 将 式 (5.22) 代入 式 (5.20) : 
bias(0,,) = E[4n] — 0 (5.23) 
”A _ 
= i» | 0 (5.24) 
i 5 E [x] — 0 (5.25) 
TS 去 jy ag (2 @ 
二 上 @ge (4... gya-2®)) _ 
= 二 20 (« e? (1 — eja ) b (5.26) 
1 m 
zi 2.0 一 0 (5.27) 
—-0—0— (5.28) 
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因为 bias(0) = 0, 我 们 称 估计 0 是 无 偏 的 。 














示例 : 均值 的 高 斯 分 布 估计 现在 ,考虑 一 组 独立 同 分 布 的 样本 (309, ... 209) 服 
从 高 斯 分 布 p(z) =N (2; 07), FEP ie {1,...,m}. 回顾 高 斯 概率 密度 函数 如 


























F: 
i). 1 1 (z® — u)? 
p(zO; u, o?) = NT exp (3 a ) (5.29) 
高 斯 均值 参数 的 常用 估计 量 被 称 为 样本 均值 ( sample mean ): 
SS 
fim = — 2. T (5.30) 
判断 样本 均值 是 否 有 偏 ， 我 们 再 次 计算 它 的 期 望 : 
bias(fim) = Elfim] — u (5.31) 
=E E 2. z0) -u (5.32) 
[Nro 
- (2X i [x J n (5.33) 
1 TT 
= (2 >} r) -u (5.34) 
一 -0 (5.35) 








因此 我 们 发 现 样本 均值 是 高 斯 均值 参数 的 无 侦 佑 计量 。 








示例 : 高 斯 分 布 方差 估计 本 例 中 ,我 们 比较 高 斯 分 布 方差 参数 o? 的 两 个 不 同 估 
计 。 我 们 探讨 是 否 有 一 个 是 有 偏 的 。 
我 们 考虑 的 第 一 个 方差 估计 被 称 为 样本 方差 ( sample variance ): 
1 m 
ic eda , (5.36) 























bias(62,) = E[62.] — o°. (5.37) 
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我 们 首先 估计 项 E[62 |: 



































E[62,] — E > (2 — in) (5.38) 


= c (5.39) 








回 到 式 (5.37) ， 我 们 可 以 得 出 62, 的 偏差 是 -2/m。 因 此 样本 方差 是 有 偏 估 计 。 
无 偏 样本 方差 ( unbiased sample variance ) 估计 


























2 1 NO. 
om = 1 2. (x Âm) (5.40) 


Tet T APENA. TEMAS, Mi EN. RAZ, RTZEA 







































































E[o7,] = 0°: 
g[32] = E = - » (2 — in) (5.41) 
= 一 一 人 Elen (5.42) 
-2 E e) (5.43) 
Fo’. (5.44) 


我 们 有 两 个 佑 计量 : 一 个 是 有 偏 的 ， 男 一 个 是 无 偏 的 。 尽 管 无 偏 估计 显然 是 令 
人 满意 的 ; 但 它 并 不 总 是 “最 好 ”的 估计 。 我 们 将 看 到 ， 经 常会 使 用 其 他 具有 重要 性 
质 的 有 偏 估计 。 















































5.43 “方差 和 标准 差 


我 们 有 时 会 考虑 估计 量 的 另 一 个 性 质 是 它 作 为 数据 样本 的 函数 ， 期 望 的 变化 程 
度 是 多 少 。 正 如 我 们 可 以 计算 估计 量 的 期 望 来 决定 它 的 偏差 ， 我 们 也 可 以 计算 它 的 
方差 。 估 计量 的 方差 (variance ) 就 是 一 个 方差 

















Var(0) (5.45) 


其 中 随机 变量 是 训练 集 。 另 外 , 方差 的 平方 根 被 称 为 标准 差 (standard error ), 记 作 
SE(O)。 
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估计 量 的 方差 或 标准 差 告诉 我 们 ， 当 独立 地 从 潜在 的 数据 生成 过 程 中 重 采 样 数 
据 集 时 ， 如 何 期 望 估计 的 变化 。 正 如 我 们 希望 估计 的 偏差 较 小 ,我们 也 希望 其 方差 
较 小 。 

当 我 们 使 用 有 限 的 样本 计算 任何 统计 量 时 ， 真 实 参 数 的 估计 都 是 不 确定 的 ， 在 
这 个 意义 下 ， 从 相同 的 分 布 得 到 其 他 样本 时 ， 它 们 的 统计 量 也 会 不 一 样 。 任何 方差 
估计 量 的 期 望 程度 是 我 们 想 量化 的 误差 的 来 源 。 

均值 的 标准 差 被 记 作 























SE(Âm) = " 





Ly | = (5.46) 





其 中 o? 是 样本 rO 的 真实 方差 。 标 准 差 通常 被 记 作 o。 可惜 ， 样 本 方差 的 平方 根 和 
方差 无 偏 估 计 的 平方 根 都 不 是 标准 差 的 无 偏 估计 。 这 两 种 计算 方法 都 倾向 于 低估 真 
实 的 标准 差 , 但 仍 用 于 实际 中 。 相 较 而 言 , 方差 无 偏 估计 的 平方 根 较 少 被 低 佑 。 对 于 
较 大 的 m， 这 种 近似 非常 合理 

均值 的 标准 差 在 机 器 学 习 实 验 中 非常 有 用 。 我 们 通常 用 测试 集 样本 的 误差 均值 
来 估计 泛 化 误差 。 测 试 集中 样本 的 数量 决定 了 这 个 估计 的 精确 度 。 中 心 极限 定理 告 
诉 我 们 均值 会 接近 一 个 高 其 分布， 我们 可 以 用 标准 差 计 算出 真实 期 望 落 在 选 定 区 间 
的 概率 。 例 如 ， 以 均值 fm 为 中 心 的 95% 置信 区 间 是 



































(fim — 1.96SE(fim), Âm + 1.96SE(fim)), (5.47) 


以 上 区 间 是 基于 均值 Am 和 方差 SEC)? 的 高 其 分布。 在 机 器 学 习 实验 中 ， 我 们 通 
常 说 算法 A 比 算法 B 好 ， 是 指 算法 A 的 误差 的 95% 置信 区 间 的 上 界 小 于 算法 B 
的 误差 的 9596 置信 区 间 的 下 界 。 


示例 : 伯 努 利 分 布 ”我们 再 次 考虑 从 伯 努 利 分 布 (回顾 P(e; 0) = 07^ (1—0)1-7^ ) 
中 独立 同 分 布 采 样 出 来 的 一 组 样本 {fz0,...,z(o}。 这 次 我 们 关注 估计 Ôn = 
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ly" sO 的 方差 : 


Var ( ei s a ^ (5.48) 
BC 

x rA Ve (5.49) 

E = Sa (5.50) 

= 4 — 6) (5.51) 

= =0(1 _ 0) (5.52) 


佑 计量 方差 的 下 降 速 率 是 关于 数据 集 样本 数目 m 的 函数 。 这 是 常见 估计 量 的 普 裔 性 
质 ， 在 探讨 一 致 性 (参考 第 5.4.5 节 ) 时 ， 我 们 会 继续 讨论 。 











5.4.4 ”权衡 偏差 和 方差 以 最 小 化 均 方 误差 


偏差 和 方差 度量 着 佑 计量 的 两 个 不 同 误差 来 源 。 偏 差 度量 着 偏离 真实 函数 或 参 
数 的 误差 期 望 。 而 方差 度量 着 数据 上 任意 特定 采样 可 能 导致 的 估计 期 望 的 偏差 。 

当 我 们 可 以 在 一 个 偏差 更 大 的 估计 和 一 个 方差 更 大 的 估计 中 进行 选择 时 ， 会 发 
生 什么 呢 ? 我 们 该 如 何 选择 ? 例如 ， 想 象 我 们 和 希望 近似 图 5.2 中 的 函数 ,我们 只 可 以 
选择 一 个 偏差 较 大 的 估计 或 一 个 方差 较 大 的 估计 ， 我 们 该 如 何 选择 呢 ? 

判断 这 种 权衡 最 常用 的 方法 是 交叉 验证 , 经 验 上 , 交叉 验证 在 真实 世界 的 许多 任 
务 中 都 非常 成 功 。 另 外 , 我 们 也 可 以 比较 这 些 估计 的 均 方 误差 (mean squared error, 
MSE ): 









































MSE = E[(0,, — 6)?] (5.53) 
= Bias(0,,)? + Var(Om) (5.54) 











MSE 度量 着 估计 和 真实 参数 0 之 间 平 方 误差 的 总 体 期 望 偏 差 。 如 式 (5.54) 所 示 ， 
MSE 估计 包含 了 偏差 和 方差 。 理 想 的 估计 具有 较 小 的 MSE 或 是 在 检查 中 会 稍微 约 
束 它 们 的 偏差 和 方差 。 


偏差 和 方差 的 关系 和 机 带 学 习 容 量 、 欠 拟 合 和 过 拟 合 的 概念 紧密 相 联 ,6 用 MSPE 度 
量 泛 化 误差 ( 偏差 和 方差 对 于 泛 化 误差 都 是 有 意义 的 ) 时 , 增加 容量 会 增加 方差 , 降 
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低 偏差 。 如 图 5.6 所 示 ， 我 们 再 次 在 关于 容量 的 函数 中 ， 看 到 泛 化 误差 的 U 形 曲 线 。 







Underfitting zone Overfitting zone 


Generalization 


Variance 

















Optimal Capacity 

capacity 
图 5.6: 当 容量 增 大 (x Ja) 时 ,偏差 ( 用 点 表示 ) 随 之 减 小 ， 而 方差 ( 虚线 ) 随 之 增 大 ， 使 得 泛 
化 误差 ( 加 粗 曲 线 ) 产生 了 另 一 种 U 形 。 如 果 我 们 沿 着 轴 改 变 容量 ， 会 发 现 最 佳 容量 ， 当 容量 小 




















于 最 佳 容量 会 呈现 从 拟 合 ， 大 于 时 导致 过 拟 合 。 这 种 关系 与 第 5.2 节 以 及 图 5.3 中 讨论 的 容量 、 欠 
拟 合 和 过 拟 合 之 间 的 关系 类 似 。 


5.4.5 ”一 致 性 


目前 我 们 已 经 探讨 了 固定 大 小 训练 集 下 不 同 佑 计量 的 性 质 。 通 常 ， 我 们 也 会 关 
注 训 练 数据 增多 后 佑 计量 的 效果 。 特 别 地 ， 我 们 希望 当 数 据 集中 数据 点 的 数量 m 增 
加 时 ,点 估计 会 收敛 到 对 应 参数 的 真实 值 。 更 形式 地 ， 我 们 想 要 





plim Boc d. (5.55) 


m-—oo"m 


符号 pim 表示 依 概 率 收敛 ， 即 对 于 任意 的 e> 0, 24 m — oo Bf, A Plên — 0| > 
€) — 0。 式 (5.55) 表示 的 条 件 被 称 为 一 致 性 (consistency )。 有 时 它 是 指 弱 一 致 性 ， 
强 一 致 性 是 指 几乎 必然 (almost sure) 从 0 收敛 到 9。 几乎 必然 收敛 (almost sure 
convergence ) 是 指 当 pllimn ,4, x? = x) = 1 时 ,随机 变量 序列 xX), xO, ... a 
SACRI] z。 

一 致 性 保证 了 估计 量 的 偏差 会 随 数 据 样本 数目 的 增多 而 减少 。 然 而 ， 反 过 来 是 
不 正确 的 一 一 渐 近 无 偏 并 不 意味 着 一 致 性 。 例 如 ， 考 虑 用 包含 m 个 样本 的 数据 集 
(2, ..., 0°} f ES AH N(x; 1,o?) 的 均值 参数 jw。 我 们 可 以 使 用 数据 集 的 第 
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一 个 样本 rO 作为 无 偏 估 计量 : 6 = zx 中。 在 该 情况 下 ，E(6,,) = 0， 所 以 不 管 观测 
到 多 少数 据点 , 该 估计 量 都 是 无 偏 的 。 然 而 ,这 不 是 一 个 一 致 估计 ， 因为 它 不 满足 当 


m - oo ff, 6, 5 0. 



































5.5 ”最 大 似 然 估计 


之 前 ,我 们 已 经 看 过 常用 估计 的 定义 ， 并 分 析 了 它们 的 性 质 。 但 是 这 些 估计 是 
从 哪里 来 的 呢 ? 我 们 希望 有 些 准则 可 以 让 我 们 从 不 同 模型 中 得 到 特定 函数 作为 好 的 
估计 ， 而 不 是 猜测 某 些 函 数 可 能 是 好 的 估计 ， 然 后 分 析 其 偏差 和 方差 。 

最 常用 的 准则 是 最 大 似 然 估计 。 

考虑 一 组 含有 m 个 样本 的 数据 集 X = (209, ..., zx" }， 独 立地 由 未 知 的 真实 数 
据 生成 分 布 Daata(X) 生成 。 

令 Pmodal (X; 9) 是 一 族 由 0 确定 在 相同 空间 上 的 概率 分 布 。 换言之 ， Pmodal (T; 9) 
将 任意 输入 z 映射 到 实数 来 估计 真实 概率 puata(z)。 

对 0 的 最 大 似 然 估 计 被 定义 为 : 


OML = arg max pmoda (X; 0), (5.56) 
6 
= (9 5.57 
arg max model (£; 0). 
Br I del ( ) (5.57) 


多 个 概率 的 乘积 会 因 很 多 原因 不 便于 计算 。 例 如 ， 计 算 中 很 可 能 会 出 现 数值 
下 溢 。 为 了 得 到 一 个 便于 计算 的 等 价 优化 问题 ， 我 们 观察 到 似 然 对 数 不 会 改变 其 
arg max 但 是 将 乘积 转化 成 了 便于 计算 的 求 和 形式 : 


Oy, = > log podai (2 ; 0). (5.58) 
因为 当 我 们 重新 缩放 代价 函数 时 arg max 不 会 改变 ， 我们 可 以 除 以 m 得 到 和 训练 数 
据 经 验 分 布 Pqats。 相关 的 期 望 作为 准则 : 











Oui = arg max Ex~pana log pmodal (z; 0). (5.59) 
8 





一 种 解释 最 大 似 然 估计 的 观点 是 将 它 看 作 最 小 化 训练 集 上 的 经 验 分 布 Paata 和 模 
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型 分 布 之 间 的 差异 ,两 者 之 间 的 差异 程度 可 以 通过 KL 散 度 度量 。KL 散 度 被 定义 为 











Dr, (Paata ||Pmoae1) a: E rasta [log Paata (£) _ log Pmodel (x)] . (5.60) 





左边 一 项 仅 涉及 到 数据 生成 过 程 ， 和 模型 无 关 。 这 意味 着 当 我 们 训练 模型 最 小 化 KL 
散 度 时 ， 我 们 只 需要 最 小 化 











xm Hew Bante [log Pmodel (2)], (5.61) 





当然 ， 这 和 式 (5.59) 中 最 大 化 是 相同 的 。 

最 小 化 KL 散 度 其 实 就 是 在 最 小 化 分 布 之 间 的 交叉 炉 s 许多 作者 使 用 术语 “ 交 
叉 炉 ”特定 表示 伯 努 利 或 softmax 分 布 的 负 对 数 似 然 , 但 那 是 用 词 不 当 的 。 任 何 一 
个 由 负 对 数 似 然 组 成 的 损失 都 是 定义 在 训练 集 上 的 经 验 分 布 和 定义 在 模型 上 的 概率 
分 布 之 间 的 交叉 炉 。 例 如 ， 均 方 误差 是 经 验 分 布 和 高 斯 模型 之 间 的 交叉 炉 。 

我 们 可 以 将 最 大 似 然 看 作 是 使 模型 分 布 尽 可 能 地 和 经 验 分 布 Paaa 相 匹 配 的 尝 
试 。 理 想 情 况 下 ， 我 们 希望 匹配 真实 的 数据 生成 分 布 paata。， 但 我 们 没 法 直接 知道 这 
个 分 布 。 

虽然 最 优 9 在 最 大 化 似 然 或 是 最 小 化 KL 散 度 时 是 相同 的 ， 但 目标 函数 值 是 不 
一 样 的 。 在 软件 中 ， 我 们 通常 将 两 者 都 称 为 最 小 化 代价 函数 。 因 此 最 大 化 似 然 变 成 
了 最 小 化 负 对 数 似 然 ( NLL)， 或 者 等 价 的 是 最 小 化 交叉 炉 。 将 最 大 化 似 然 看 作 最 小 
化 KL 散 度 的 视角 在 这 个 情况 下 是 有 帮助 的 ， 因 为 已 知 KL 散 度 最 小 值 是 零 。 当 z 
取 实 数 时 ， 负 对 数 似 然 是 负 值 。 


5.5.1 条件 对 数 似 然 和 均 方 误差 
最 大 似 然 估计 很 容易 扩展 到 估计 条 件 概 率 P(y | x; 9)， 从 而 给 定 x 预测 y。 实 
际 上 这 是 最 常见 的 情况 ， 因 为 这 构成 了 大 多 数 监 督学 习 的 基础 。 如 果 站 表示 所 有 的 
A, Y 表示 我 们 观测 到 的 目标 ， 那 么 条 件 最 大 似 然 估计 是 
Oy, = arg maxP( Y | X;0). (5.62) 
8 
如 果 假 设 样本 是 独立 同 分 布 的 ， 那 么 这 可 以 分 解 成 


OML = arg max 》 log P(y | a(?; 0). (5.63) 
2 di 
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示例 : 线性 回归 作为 最 大 似 然 ”第 5.1.4 节 介绍 的 线性 回归 ， 可 以 被 看 作 是 最 大 似 然 
过 程 。 之 前 ， 我 们 将 线性 回归 作为 学 习 从 输入 zx 映射 到 输出 5 的 算法 。 从 c BIg AY 
映射 选 自 最 小 化 均 方 误差 〈 我 们 或 多 或 少 介绍 的 一 个 标准 )。 现 在 ， 我 们 以 最 大 似 然 
估计 的 角度 重新 审视 线性 回归 。 我 们 现在 希望 模型 能 够 得 到 条 件 概率 p(y | x), ， 而 不 
只 是 得 到 一 个 单独 的 预测 9. 想象 有 一 个 无 限 大 的 训练 集 , 我 们 可 能 会 观测 到 几 个 训 
练 样本 有 相同 的 输入 ac 但 是 不 同 的 y. 现在 学 习 算法 的 目标 是 拟 合 分 布 p(y | z) 到 和 
x 相 匹配 的 不 同 的 y. 为 了 得 到 我 们 之 前 推导 出 的 相同 的 线性 回归 算法 ， 我 们 定义 
ply | 2) =N(y;9(a; w),o?). PK O(a; w) 预测 高 斯 的 均值 。 在 这 个 例子 中 ， 我 们 假 
设 方差 是 用 户 固定 的 某 个 常量 c?。 这 种 函数 形式 ply | z) 会 使 得 最 大 似 然 估计 得 出 
和 之 前 相同 的 学 习 算法 。 由 于 假设 样本 是 独立 同 分 布 的 ， 条件 对 数 似 然 ( 式 (5.63) ) 
如 下 














S log p(y | £0;0) (5.64) 


i=l 


=— mlogo — 7 log(27) 2. lg 





(i) _ y | 


(5.65) 





其 中 gO 是 线性 回归 在 第 i 个 输入 aO 上 的 输出 ，m 是 训练 样本 的 数目 。 对 比 于 均 
方 误差 的 对 数 似 然 ， 


te : P, 
E E M ni) 40) 
MSEtrain = m A là y | , (5.66) 
我 们 立刻 可 以 看 出 最 大 化 关于 w 的 对 数 似 然 和 最 小 化 均 方 误差 会 得 到 相同 的 参数 佑 


YF wo 但 是 对 于 相同 的 最 优 w， 这 两 个 准则 有 着 不 同 的 值 。 这 验证 了 MSEB 可 以 用 
于 最 大 似 然 佑 计 。 正 如 我 们 将 看 到 的 ， 最 大 似 然 估计 有 几 个 理想 的 性 质 。 





5.5.2 ”最 大 似 然 的 性 质 


最 大 似 然 佑 计 最 吸引 人 的 地 方 在 于 ， 它 被 证 明 当 样本 数目 m 一 oo 时 ， 就 收敛 
率 而 言 是 最 好 的 渐 近 估计 。 
在 合适 的 条 件 下 ， 最 大 似 然 估计 具有 一 致 性 〈 人 参考 第 5.4.5 节 )， 意 味 着 训练 样 
本 数目 趋向 于 无 穷 大 时 ， 参 数 的 最 大 似 然 佑 计 会 收敛 到 参数 的 真实 值 。 这 些 条 件 是 : 
e. 真实 分 布 Paata 必须 在 模型 族 paoaqa(; 0) 中 。 否 则 ， 没 有 佑 计 可 以 还 原 paatac 
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o KKI pana 必须 刚好 对 应 一 个 9 值 。 否 则 ， 最 大 似 然 估计 恢复 出 真实 分 布 
Paus 后 ， 也 不 能 决定 数据 生成 过 程 使 用 哪个 0. 








除了 最 大 似 然 估计 ， 还 有 其 他 的 归纳 准则 ， 其 中 许多 共享 一 致 估计 的 性 质 。 然 
而 , 一 致 估计 的 统计 效率 (statistic efficiency ) 可 能 区 别 很 大 。 某 些 一 致 估计 可 能 会 
在 固定 数目 的 样本 上 获得 一 个 较 低 的 泛 化 误差 ,或 者 等 价 地 ， 可 能 只 需要 较 少 的 样 
本 就 能 达到 一 个 固定 程度 的 泛 化 误差 。 

统计 效率 通常 用 于 有 参 情况 (parametric case) 的 研究 中 (例如 线性 回归 )。 有 
参 情 况 中 我 们 的 目标 是 估计 参数 值 (假设 有 可 能 确定 真实 参数 )， 而 不 是 函数 值 。 一 
种 度量 我 们 和 真实 参数 相差 多 少 的 方法 是 计算 均 方 误差 的 期 望 ， 即 计算 m 个 从 数据 
生成 分 布 中 出 来 的 训练 样本 上 的 估计 参数 和 真实 参数 之 间 差 值 的 平方 。 有 参 均 方 误 
差 估计 随 着 m 的 增加 而 减少 ， 当 m BERT, Cramér-Rao 下 界 (Rao, 1945; Cramér, 
1946) 表明 不 存在 均 方 误差 低 于 最 大 似 然 估计 的 一 致 估计 。 

因为 这 些 原 因 (一 致 性 和 统计 效率 )， 最 大 似 然 通 党 是 机 需 学 习 中 的 首选 估计 。 
当 样 本 数目 小 到 会 发 生 过 拟 合 时 ， 正 则 化 策略 如 权重 衰减 可 用 于 获得 训练 数据 有 限 
时 方差 较 小 的 最 大 似 然 有 偏 版 本 。 


5.6 ” 贝 叶 斯 统计 


至 此 我 们 已 经 讨论 了 频率 派 统计 (在 equentist statistics ) 方法 和 基于 估计 单一 
fH 0 的 方法 ， 然 后 基于 该 估计 作 所 有 的 预测 。 另 一 种 方法 是 在 做 预测 时 会 考虑 所 有 
可 能 的 9。 后 者 属于 贝 叶 斯 统计 〈Bayesian statistics ) 的 范畴 。 

正如 第 5.4.1 节 中 讨论 的 ， 频 率 派 的 视角 是 真实 参数 9 是 未 知 的 定 值 ， 而 点 估计 
Ô 是 考虑 数据 集 上 函数 ( 可 以 看 作 是 随机 的 ) 的 随机 变量 。 

贝 叶 斯 统计 的 视角 完全 不 同 。 贝 叶 斯 用 概率 反映 知识 状态 的 确定 性 程度 。 数 据 
集 能 够 被 直接 观测 到 ， 因 此 不 是 随机 的 。 另 一 方面 ， 真 实 参数 9 是 未 知 或 不 确定 的 ， 
因此 可 以 表示 成 随机 变量 。 

在 观察 到 数据 前 ， 我 们 将 9 的 已 知 知识 表示 成 先 验 概率 分 布 (prior probability 
distribution ), p(0) (有 时 简单 地 称 为 “ 先 验 ”)。 一 般 而 言 ， 机 器 学 习 实 践 者 会 选择 
— PAS IA CHB, EY) 先 验 分 布 ， 反 映 在 观测 到 任何 数据 前 参数 9 的 高 度 
不 确定 性 。 例 如 ， 我 们 可 能 会 假设 先 验 9 在 有 限 区 间 中 均匀 分 布 。 许 多 先 验 偏好 于 
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“更 简单 ”的 解 ( 如 小 幅度 的 系数 ， 或 是 接近 常数 的 函数 )。 

现在 假设 我 们 有 一 组 数据 样本 {z@),.…,zt6}。 通 过 贝 叶 斯 规则 结合 数据 似 然 
p(z,..., 209 | 0) 和 先 验 ， 我 们 可 以 恢复 数据 对 我 们 关于 9 信念 的 影响 : 
zzZon) | 0)p(0) 
pe, 2.50) ) 
d Vi nr aS AS Ta P, TOTP IG ZR REDE] 88] 43-4 eX SABER E TAB, AL 
CR tr ze RU PER, IPR PES CLS REER BS EE 

相对 于 最 大 似 然 估计 ， 贝 叶 斯 估计 有 两 个 重要 区 别 。 第 一 , 不 像 最 大 似 然 方 法 预 
测 时 使 用 9 的 点 估计 ， 贝 叶 斯 方法 使 用 9 的 全 分 布 。 例 如 ， 在 观测 到 m 个 样本 后 ， 
下 一 个 数据 样本 rtd 的 预测 分 布 如 下 : 


p(@ | a)... gm) = p( 





(5.67) 








p(az e | aD, . a) = f pa | Op(O | a,...,2™) do. (5.68) 





这 里 ， 每 个 具有 正 概 率 密 度 的 9 的 值 有 助 于 下 一 个 样本 的 预测 ， 其 中 贡献 由 后 验 密 
度 本 身 加 权 。 在 观测 到 数据 集 {2 中 ,.….. ,zx } 之 后 ， 如 果 我 们 仍然 非常 不 确定 9 的 
值 ， 那 么 这 个 不 确定 性 会 直接 包含 在 我 们 所 做 的 任何 预测 中 。 

在 第 5.4 节 中 ， 我 们 已 经 探讨 频率 派 方 法 解决 给 定点 估计 9 的 不 确定 性 的 方法 
是 评估 方差 :估计 的 方差 评估 了 观测 数据 重新 从 观测 数据 中 采样 后 ， 估 计 可 能 如 何 
变化 。 对 于 如 何 处 理 估计 不 确定 性 的 这 个 问题 ， 贝 叶 斯 派 的 答案 是 积分 ， 这 往往 会 
防止 过 拟 合 。 当 然 ， 积 分 仅仅 是 概率 法 则 的 应 用 ,使 贝 叶 斯 方法 容易 验证 ， 而 频率 
派 机 带 学 习 基于 相当 特别 的 决定 构建 了 一 个 估计， 将 数据 集 里 的 所 有 信息 归纳 到 一 
个 单独 的 点 估计 。 

贝 叶 斯 方法 和 最 大 似 然 方法 的 第 二 个 最 大 区 别 是 由 贝 叶 斯 先 验 分 布 造成 的 。 先 
验 能 够 影响 概率 质量 密度 朝 参 数 空间 中 偏好 先 验 的 区 域 偏 移 。 实 践 中 ， 先 验 通常 表 
现 为 偏好 更 简单 或 更 光滑 的 模型 。 对 贝 叶 斯 方法 的 批判 认为 先 验 是 人 为 主观 判断 影 
响 预 测 的 来 源 。 

当 训 练 数据 很 有 限时 ， 贝 叶 斯 方法 通常 泛 化 得 更 好 ,但 是 当 训 练 样本 数目 很 大 
时 ， 通 常会 有 很 大 的 计算 代价 。 





示例 : 贝 叶 斯 线性 回归 ”我 们 使 用 贝 叶 斯 估计 方法 学 习 线 性 回归 的 参数 。 在 线性 回 
归 中 ， 我 们 学 习 从 输入 向 量 a e R" 预测 标量 y ER 的 线性 映射 。 该 预测 由 向 量 





ww ai bbc. com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
120 第 五 章 ”机 器 学 习 基 础 


w E R” 参数 化 : 
j = wa. (5.69) 
给 定 一 组 m 个 训练 样本 (XC), yore), RAT AEE TIGERS y 的 预测 : 
jm) = xin) ay, (5.70) 
表示 为 y 上 的 高 斯 条 件 分 布 ， 我 们 得 到 
p(y | XO) uy = (a (oim; XC) wy, p (5.71) 


1 ; 4 ; F 
x exp (- guns u X(train) w) (yt Xtrain) w) 


(5.72) 





其 中 ， 我 们 根据 标准 的 MSE 公 式 假 设 y 上 的 高 斯 方差 为 1。 在 下 文中 ， 为 减少 符号 
HMH, RI (X, yti) 简单 表示 为 (X, y)o 

为 确定 模型 参数 向 量 w 的 后 验 分 布 ， 我 们 首先 需要 指定 一 个 先 验 分 布 。 先 验 应 
该 反映 我 们 对 这 些 参 数 取 值 的 信念 。 虽 然 有 时 将 我 们 的 先 验 信念 表示 为 模型 的 参数 
很 难 或 很 不 自然 ,但 在 实践 中 我 们 通常 假设 一 个 相当 广泛 的 分 布 来 表示 9 的 高 度 不 
确定 性 。 实 数值 参数 通常 使 用 高 斯 作为 先 验 分 布 : 





p(w) = N (w; Ho, Ao) « exp (ie = Ho) AT (w = H)) , (5.73) 


HP, po 和 Ao 分 别 是 先 验 分 布 的 均值 向 量 和 协 方差 矩阵 。} 
确定 好 先 验 后 ， 我 们 现在 可 以 继续 确定 模型 参数 的 后 验 分 布 。 


p(w | X, y) x ply | X, w)p(w) (5.74) 
x exp (By X)" (y — Xu) ) exp (- 5t mo)" As (w— mo) ) 
(5.75) 


1 
x exp (5 (一 2 Xw 十 w' X! Xuw 十 WO Aj w-— Dr) . (5.76) 


现在 我 们 定义 Am = (X! X Ag) A us = Am(X y + Ag po)s EARLE TY 























“除非 有 理由 使 用 协 方差 矩阵 的 特定 结构 ， 我 们 通常 假设 其 为 对 角 协 方差 矩阵 Ao = diag( 和 0)。 
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变量 ,我 们 发 现 后 验 可 改写 为 高 斯 分 布 : 


1 E 1 = 
p(w | Xy) oc exp ( -3w pom) As (w= pn) + sap Antti) 77) 





x exp (—5(w pn) Az (o - Hm) ) (5.78) 


所 有 不 包括 的 参数 向 量 w 的 项 都 已 经 被 删 去 了 ; 它们 意味 着 分 布 的 积分 必须 归 一 这 
个 事实 。 式 (3.23) 显示 了 如 何 标准 化 多 元 高 斯 分 布 。 

检查 此 后 验 分 布 可 以 让 我 们 获得 贝 叶 斯 推断 效果 的 一 些 直觉 。 大 多 数 情况 下 ， 
我 们 设置 poo = 0。 如 果 我 们 设置 Ao = H, IBA um 对 w 的 估计 就 和 频率 派 带 权重 
衰减 惩罚 ow! w 的 线性 回归 的 估计 是 一 样 的 。 一 个 区 别 是 若 a 设 为 0 则 贝 叶 斯 佑 
计 是 未 定义 的 一 一 我 们 不 能 将 贝 叶 斯 学 习 过 程 初始 化 为 一 个 无 限 宽 的 w 先 验 。 更 重 
要 的 区 别 是 贝 叶 斯 估计 会 给 出 一 个 协 方差 矩阵 ， 表 示 w 所 有 不 同 值 的 可 能 范围 ， 而 
不 仅 是 佑 计 jm。 








5.6.1 最 大 后 验 (MAP) 估计 


原则 上 ， 我 们 应 该 使 用 参数 e 的 完整 贝 叶 斯 后 验 分 布 进行 预测 ， 但 单 点 估计 
常常 也 是 需要 的 。 希 望 使 用 点 估计 的 一 个 常见 原因 是 ， 对 于 大 多 数 有 意义 的 模型 而 
言 ， 大 多 数 涉 及 到 贝 叶 斯 后 验 的 计算 是 非常 玉手 的 ， 点 估计 提供 了 一 个 可 行 的 近似 
解 。 我 们 仍然 可 以 让 先 验 影响 点 估计 的 选择 来 利用 贝 叶 斯 方法 的 优点 ， 而 不 是 简单 
地 回 到 最 大 似 然 估计 。 一 种 能 够 做 到 这 一 点 的 合理 方式 是 选择 最 大 后 验 ( Maximum 
A Posteriori, MAP) 点 估计 。MAP 估计 选择 后 验 概率 最 大 的 点 〈 或 在 0 是 连续 值 





的 更 常见 情况 下 ， 概 率 密度 最 大 的 点 小 
Omar = arg max p(0 | x) = arg max log p(a | 9) + log p(0). (5.79) 
e e 


我 们 可 以 认 出 上 式 右边 的 logp(z | 0) 对 应 着 标准 的 对 数 似 然 项 ，log p(6) 对 应 着 先 
验 分 布 。 

例如 ， 考 虑 具有 高 斯 先 验 权重 w 的 线性 回归 模型 。 如 果 先 验 是 N (w; 0, 1177), 
那么 式 (5.79) 的 对 数 先 验 项 正比 于 熟悉 的 权重 衰减 惩罚 Aw!" w， 加 上 一 个 不 依赖 于 
w 也 不 会 影响 学 习 过 程 的 项 。 因 此 ， 具 有 高 斯 先 验 权重 的 MAP 贝 叶 斯 推断 对 应 着 权 
重 衰减 。 
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EWAN AE, MAP 贝 叶 斯 推断 的 优势 是 能 够 利用 来 自 先 验 的 信息 ， 这 些 
言 息 无 法 从 训练 数据 中 获得 。 该 附加 信息 有 助 于 减少 最 大 后 验 点 估计 的 方差 ( 相 比 
于 ML 估计 )。 然 而 ， 这 个 优点 的 代价 是 增加 了 偏差 。 

许多 正规 化 估计 方法 ,例如 权重 衰减 正则 化 的 最 大 似 然 学 习 ， 可 以 被 解释 为 贝 
叶 斯 推断 的 MAP 近似 。 这 个 适应 于 正则 化 时 加 到 目标 函数 的 附加 项 对 应 着 log p(0)。 
并 非 所 有 的 正则 化 惩罚 都 对 应 着 MAP 贝 叶 斯 推断 。 例 如, 有些 正则 化 项 可 能 不 是 一 
个 概率 分 布 的 对 数 。 还 有 些 正则 化 项 依赖 于 数据 ， 当 然 也 不 会 是 一 个 先 验 概率 分 布 。 

MAP 贝 叶 斯 推断 提供 了 一 个 直观 的 方法 来 设计 复杂 但 可 解释 的 正则 化 项 。 例 
如 ， 更 复杂 的 惩罚 项 可 以 通过 混合 高 斯 分 布 作为 先 验 得 到 ， 而 不 是 一 个 单独 的 高 斯 
分 布 (Nowlan and Hinton, 1992). 








5.7 监督 学 习 算 法 


回顾 第 5.1.3 节 ， 粗 略 地 说 ， 监 督学 习 算法 是 给 定 一 组 输入 z 和 输出 y 的 训练 
集 ， 学 习 如 何 关联 输入 和 输出 。 在 许多 情况 下 ， 输 出 y 很 难 自动 收集 ， 必 须 由 人 来 
提供 “监督 "， 不 过 该 术语 仍然 适用 于 训练 集 目标 可 以 被 自动 收集 的 情况 。 








5.7.1 ”概率 监督 学 习 








本 书 的 大 部 分 监督 学 习 算法 都 是 基于 估计 概率 分 布 p(y | z) 的 。 我 们 可 以 使 用 最 
大 似 然 估 计 找 到 对 于 有 参 分 布 族 p(y | a; 0) 最 好 的 参数 向 量 9。 


我 们 已 经 看 到 ， 线 性 回归 对 应 于 分 布 族 
ply | #8) = N (y; 0' a, I). (5.80) 


通过 定义 一 族 不 同 的 概率 分 布 ， 我 们 可 以 将 线性 回归 扩展 到 分 类 情况 中 。 如 果 我 们 
有 两 个 类 ， 类 0 和 类 1， 那 么 我 们 只 需要 指定 这 两 类 之 一 的 概率 。 类 1 的 概率 决定 
了 类 0 的 概率 ， 因 为 这 两 个 值 加 起 来 必须 等 于 1。 

我 们 用 于 线性 回归 的 实数 正 态 分 布 是 用 均值 参数 化 的 。 我 们 提供 这 个 均值 的 任 
何 值 都 是 有 效 的 。 二 元 变量 上 的 的 分 布 稍微 复杂 些 ， 因 为 它 的 均值 必须 始终 在 0 和 
1 之 间 。 解 决 这 个 问题 的 一 种 方法 是 使 用 logistic sigmoid 函数 将 线性 函数 的 输出 压 
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缩 进 区 间 (0,1)。 该 值 可 以 解释 为 概率 : 
ply = 1 | z;0) = o(0' x). (5.81) 

这 个 方法 被 称 为 逻辑 回归 (logistic regression )， 这 个 名 字 有 点 奇怪 ， 因 为 该 模型 用 
于 分 类 而 非 回归 。 

线性 回归 中 ， 我 们 能 够 通过 求解 正规 方程 以 找到 最 佳 权 重 。 相 比 而 言 ， 逻 辑 回 
归 会 更 困难 些 。 其 最 佳 权重 没有 闭 解 。 反 之 ， 我 们 必须 最 大 化 对 数 似 然 来 搜索 最 优 
解 。 我 们 可 以 通过 梯度 下 降 算法 最 小 化 负 对 数 似 然 来 搜索 。 

通过 确定 正确 的 输入 和 输出 变量 上 的 有 参 条 件 概率 分 布 族 ， 相 同 的 策略 基本 上 
可 以 用 于 任何 监督 学 习 问 题 。 





5.7.2 ”支持 向 量 机 


支持 向 量 机 (support vector machine, SVM ) 是 监督 学 习 中 最 有 影响 力 的 方法 
之 一 (Boser et al., 1992; Cortes and Vapnik, 1995)。 类 似 于 逮 辑 回归 ， 这 个 模型 也 
是 基于 线性 函数 w zz 十 5 的。 不 同 于 逻辑 回归 的 是 ， 支 持 向 量 机 不 输出 概率 ， 只 输 
出 类 别 。 当 wla+b 为 正 时 ， 支持 向 量 机 预测 属于 正 类 。 类 似 地 ， 当 wa b 为 负 
时 ， 支 持 向 量 机 预测 属于 负 类 。 

支持 向 量 机 的 一 个 重要 创新 是 核 技巧 (kernel trick )。 核 技巧 观察 到 许多 机 器 学 
习 算 法 都 可 以 写成 样本 间 点 积 的 形式 。 例 如 ， 支 持 向 量 机 中 的 线性 函数 可 以 重 写 为 





wie+b=b+ >， o, al, (5.82) 
记 1 
ER, aO 是 训练 样本 ，a 是 系数 向 量 。 学 习 算 法 重 写 为 这 种 形式 允许 我 们 将 z ER 
换 为 特征 函数 9(z) 的 输出 ， 点 积 蔡 换 为 被 称 为 核 水 数 ( kernel function ) 的 函数 
k(x, a?) = 9(z) .gz0)。 运 算 符 - 表示 类 似 于 olx) olh) 的 点 积 。 对 于 某 些 特 
征 空间 ， 我 们 可 能 不 会 书面 地 使 用 向 量 内 积 。 在 某 些 无 限 维 空间 中 ， 我 们 需要 使 用 
其 他 类 型 的 内 积 ， 如 基于 积分 而 非 加 和 的 内 积 。 这 种 类 型 内 积 的 完整 介绍 超出 了 本 
书 的 范围 。 
使 用 核 估 计 蔡 换 点 积 之 后 ， 我 们 可 以 使 用 如 下 也 数 进行 预测 











f(z) =b+ >》 ajk(a, a). (5.83) 


ww ai bbt.com GOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
124 第 五 章 ”机 器 学 习 基 础 


这 个 函数 关于 z 是 非 线 性 的 ， 关 于 9(z) 是 线性 的 。a 和 f(x) 之 间 的 关系 也 是 线性 
的 。 核 函数 完全 等 价 于 用 olx) 预 处 理 所 有 的 输入 ， 然 后 在 新 的 转换 空间 学 习 线性 模 
型 。 





核 技巧 十 分 强大 有 两 个 原因 。 首 先 ， 它 使 我 们 能 够 使 用 保证 有 效 收敛 的 凸 优化 
技术 来 学 习 非 线性 模型 (关于 z 的 函数 )。 这 是 可 能 的 ， 因 为 我 们 可 以 认为 少 是 固 
定 的 , 仅 优 化 a， 即 优化 算法 可 以 将 决策 函数 视 为 不 同 空 间 中 的 线性 函数 。 其 二 , 核 
函数 的 实现 方法 通常 有 比 直接 构建 wz) 再 算 点 积 高 效 很 多 。 

在 某 些 情况 下 ，y%(z) 甚至 可 以 是 无 限 维 的 ， 对 于 普通 的 显 式 方法 而 言 ， 这 将 是 
无 限 的 计算 代价 。 在 很 多 情况 下 ， 即 使 o) ER, k a’) 却 会 是 一 个 关于 z 
非 线性 的 、 易 算 的 函数 。 举 个 无 限 维 空间 易 算 的 核 的 例子 ， 我 们 构建 一 个 作用 于 非 
负 整 数 x 上 的 特征 映射 %z)。 假 设 这 个 映射 返回 一 个 由 开头 xz 个 1， 随 后 是 无 限 个 
0 的 向 量 。 我 们 可 以 写 一 个 核 函 数 k(x, x (0) = min(zz 多 )， 完 全 等 价 于 对 应 的 无 限 








最 常用 的 核 函数 是 高 斯 核 ( Gaussian kernel ), 


k(u, v) = N(u — v;0, c? I), (5.84) 





其 中 N(x; p, X) 是 标准 正 态 密度 。 这 个 核 也 被 称 为 E18) SERE (radial basis func- 
tion, RBF ) 核 ， 因 为 其 值 沿 v 中 从 习 向 外 辐射 的 方向 减 小 。 高 斯 核对 应 于 无 限 维 空 
间 中 的 点 积 ， 但 是 该 空间 的 推导 没有 整数 上 最 小 核 的 示例 那么 直观 。 

我 们 可 以 认为 高 斯 核 在 执行 一 种 模板 匹配 (template matching)。 训 练 标 签 y 相 
关 的 训练 样本 zx 变 成 了 类 别 y 的 模版 。 当 测试 点 xz 到 x 的 欧 几 里 得 距离 很 小 ， 对 
应 的 高 斯 核 响应 很 大 时 ， 表 明 af 和 模版 z 非常 相似 。 该 模型 进而 会 赋予 相对 应 的 训 
练 标签 y 较 大 的 权重 。 总 的 来 说 ， 预 测 将 会 组 合 很 多 这 种 通过 训练 样本 相似 度 加 权 
的 训练 标签 。 

支持 问 量 机 不 是 唯一 可 以 使 用 核 技巧 来 增强 的 算法 。 许 多 其 他 的 线性 模型 也 
可 以 通过 这 种 方式 来 增强 。 使 用 核 技巧 的 算法 类 别 被 称 为 核 机 器 (kernel machine ) 
或 核 方法 (kernel method ) (Williams and Rasmussen, 1996; Schólkopf et al., 1999). 

核 机 器 的 一 个 主要 缺点 是 计算 决策 函数 的 成 本 关于 训练 样本 的 数目 是 线性 的 。 
因为 第 i 个 样本 贡献 akle, 2) 到 决策 函数 。 支 持 向 量 机 能 够 通过 学 习 主要 包含 零 
的 向 量 w， 以 缓和 这 个 缺点 。 那 么 判断 新 样本 的 类 别 仅 需要 计算 非 零 a; 对 应 的 训 
练 样本 的 核 函 数 。 这 些 训练 样本 被 称 为 支持 向 量 (support vector )。 
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当 数 据 集 很 大 时 ， 核 机 器 的 计算 量 也 会 很 大 。 我 们 将 会 在 第 5.9 节 回顾 这 个 想 
法 。 带 通用 核 的 核 机 器 致力 于 泛 化 得 更 好 。 我 们 将 在 第 5.11 节 解释 原因 。 现 代 深 
度 学 习 的 设计 旨 在 克服 核 机 器 的 这 些 限 制 。 当 前 深度 学 习 的 复兴 始 于 Hinton et al. 
(2006b) 表明 神经 网 络 能 够 在 MNIST 基准 数据 上 胜 过 RBF 核 的 支持 向 量 机 。 





5.7.3 ”其 他 简单 的 监督 学 习 算法 


我 们 已 经 简要 介绍 过 另 一 个 非 概率 监督 学 习 算法 ,最 近邻 回归 。 更 一 般 地 ，k- 最 
近邻 是 一 类 可 用 于 分 类 或 回归 的 技术 。 作 为 一 个 非 参 数学 习 算法 ，k- 最 近邻 并 不 局 
限于 固定 数目 的 参数 。 我 们 通常 认为 有 最 近邻 算法 没有 任何 参数 ， 而 是 使 用 训练 数 
据 的 简单 函数 。 事 实 上 ， 它 甚至 也 没有 一 个 真正 的 训练 阶段 或 学 习 过 程 。 反 之 , 在 
测试 阶段 我 们 希望 在 新 的 测试 输入 m 上 产生 y, 我 们 需要 在 训练 数据 X ERE z 的 
-最 近邻 。 然 后 我 们 返回 训练 集 上 对 应 的 y 值 的 平均 值 。 这 几乎 适用 于 任何 类 型 可 
以 确定 y 值 平均 值 的 监督 学 习 。 在 分 类 情况 中 ， 我 们 可 以 关于 one-hot 编码 向 量 c 
求 平均 ， 其 中 c, = 1， 其 他 的 i 值 取 c; = 0。 然后 ,我们 可 以 解释 这 些 one-hot 编码 
的 均值 为 类 别 的 概率 分 布 。 作 为 一 个 非 参数 学 习 算 法 , 大 近邻 能 达到 非常 高 的 容量 。 
例如 ， 假 设 我 们 有 一 个 用 0-1 误差 度量 性 能 的 多 分 类 任务 。 在 此 设 定 中 ， 当 训练 样 
本 数目 趋向 于 无 穷 大 时 ，1- 最 近邻 收敛 到 两 倍 贝 叶 斯 误差 。 超 出 贝 叶 斯 误差 的 原因 
是 它 会 随机 从 等 距离 的 临近 点 中 随机 挑 一 个 。 而 存在 无 限 的 训练 数据 时 ， 所 有 测试 
点 x 周围 距离 为 零 的 邻近 点 有 无 限 多 个 。 如 果 我 们 使 用 所 有 这 些 临近 点 投票 的 决策 
方式 ， 而 不 是 随机 挑选 一 个 , 那么 该 过 程 将 会 收敛 到 贝 叶 斯 错误 率 。k- 最 近邻 的 高 容 
量 使 其 在 训练 样本 数目 大 时 能 够 获取 较 高 的 精度 。 然 而 ， 它 的 计算 成 本 很 高 ， 男 外 
在 训练 集 较 小 时 泛 化 能 力 很 差 。k- 最 近邻 的 一 个 弱点 是 它 不 能 学 习 出 哪 一 个 特征 比 
其 他 更 具 识 别 力 。 例 如 ， 假设 我 们 要 处 理 一 个 的 回归 任务 ， 其 中 ze RI 是 从 各 向 
同性 的 高 斯 分 布 中 抽取 的 ,但 是 只 有 一 个 变量 x 和 结果 相关 。 进 一 步 假 设 该 特征 直 
接 决 定 了 输出 ， 即 在 所 有 情况 中 y = x1。 最 近邻 回归 不 能 检测 到 这 个 简单 模式 。 大 
多 数 点 x 的 最 近邻 将 取决 于 za 到 zioo 的 大 多 数 特征 ， 而 不 是 单独 取决 于 特征 zi。 
因此 ， 小 训练 集 上 的 输出 将 会 非常 随机 。 

RR (decision tree ) 及 其 变种 是 另 一 类 将 输入 空间 分 成 不 同 的 区 域 ， 每 个 区 
域 有 独立 参数 的 算法 (Breiman et al., 1984)。 如 图 5.7 所 示 ， 决 策 树 的 每 个 节点 都 与 
输入 空间 的 一 个 区 域 相关 联 ， 并 且 内 部 节点 继续 将 区 域 分 成 子 节 点 下 的 子 区 域 ( 通 
常 使 用 坐标 轴 拆 分 区 域 )。 空 间 由 此 细 分 成 不 重 芭 的 区 域 ， 叶 节点 和 输入 区 域 之 间 形 
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成 一 一 对 应 的 关系 。 每 个 叶 结 点 将 其 输入 区 域 的 每 个 点 映射 到 相同 的 输出 。 决 策 树 
通常 有 特定 的 训练 算法 ,超出 了 本 书 的 范围 。 如 果 允 许 学 习 任意 大 小 的 决策 树 ， 那 
么 它 可 以 被 视 作 非 参数 算法 。 然 而 实践 中 通常 有 大 小 限制 ， 作 为 正则 化 项 将 其 转变 
成 有 参 模 型 。 由 于 决策 树 通常 使 用 坐标 轴 相 关 的 拆 分 ， 并 且 每 个 子 节点 关联 到 常数 
输出 ， 因 此 有 时 解决 一 些 对 于 逻辑 回归 很 简单 的 问题 很 费力 。 例 如 ， 假 设 有 一 个 二 
分 类 问题 ， 当 za > zl 时 分 为 正 类 ， 则 决策 树 的 分 界 不 是 坐标 轴 对 齐 的 。 因 此 ,决策 
树 将 需要 许多 节点 近似 决策 边界 ， 坐 标 轴 对 齐 使 其 算法 步骤 不 断 地 来 回 穿 梭 于 真正 
的 决策 函数 。 

正如 我 们 已 经 看 到 的 ， 最 近邻 预测 和 决策 树 都 有 很 多 的 局 限 性 。 尺 管 如 此 ， 在 
计算 资源 受 限 制 时 ， 它 们 都 是 很 有 用 的 学 习 算法 。 通 过 思考 复杂 算法 和 -最 近邻 或 
决策 树 之 间 的 相似 性 和 差异 ， 我 们 可 以 建立 对 更 复杂 学 习 算 法 的 直觉 。 

读者 可 以 参考 Murphy (2012); Bishop (2006); Hastie et al. (2001) 或 其 他 机 器 
学 习 教 科 书 了 解 更 多 的 传统 监督 学 习 算法 。 
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(1) 











图 5.7: 描述 一 个 决策 树 如 何 工 作 的 示意 图 。( 上 ) 树 中 每 个 节点 都 选择 将 输入 样本 送 到 左 子 节点 
(0) 或 者 右 子 节 点 (1)。 内 部 的 节点 用 圆圈 表示 , 叶 节 点 用 方块 表示 。 每 一 个 节点 可 以 用 一 个 二 值 的 
字符 串 识 别 并 对 应 树 中 的 位 置 ， 这 个 字符 串 是 通过 给 起 父亲 节点 的 字符 串 添 加 一 个 位 元 来 实现 的 
(0 表示 选择 左 或 者 上 ，1 表示 选择 右 或 者 下 )。( 下 ) 这 个 树 将 空间 分 为 区 域 。 这 个 二 维 平面 说 明 决 
策 树 可 以 分 割 R?。 这 个 平面 中 画 出 了 树 的 节点 ， 每 个 内 部 点 穿 过 分 割 线 并 用 来 给 样本 分 类 ， 叶 节 
点 画 在 样本 所 属 区 域 的 中 心 。 结 果 是 一 个 分 块 常数 函数 ， 每 一 个 叶 节 点 一 个 区 域 。 每 个 叶 需 要 至 
少 一 个 训练 样本 来 定义 ， 所 以 决策 树 不 可 能 用 来 学 习 一 个 局 部 极 大 值 比 训练 样本 数量 还 多 的 函数 。 
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5.8 无 监督 学 习 算 法 


回顾 第 5.1.3 节 ， 无 监督 算法 只 处 理 “ 特 征 ”， 不 操作 监督 信号 。 监 督 和 无 监督 
算法 之 间 的 区 别 没有 规范 严格 的 定义 ， 因 为 没有 客观 的 判断 来 区 分 监督 者 提供 的 值 
是 特征 还 是 目标 。 通 俗 地 说 ， 无 监督 学 习 的 大 多 数 尝试 是 指 从 不 需要 人 为 注释 的 样 
本 的 分 布 中 抽取 信息 。 该 术语 通常 与 密度 估计 相关 ， 学 习 从 分 布 中 采样 、 学 习 从 分 
布 中 去 品 、 寻 找 数据 分 布 的 流 形 或 是 将 数据 中 相关 的 样本 聚 类 。 

一 个 经 典 的 无 监督 学 习 任务 是 找到 数据 的 “最 佳 ” 表示 。 “最 佳 ” 可 以 是 不 同 的 
表示 ， 但 是 一 般 来 说 ， 是 指 该 表示 在 比 本 身 表 示 的 信息 更 简单 或 更 易 访 问 而 受到 一 
些 惩罚 或 限制 的 情况 下 ， 尽 可 能 地 保存 关于 z 更 多 的 信息 。 

有 很 多 方式 定义 较 简 单 的 表示 。 最 常见 的 三 种 包括 低 维 表 示 、 稀 疏 表 示 和 独立 
表示 。 低 维 表示 尝试 将 z 中 的 信息 尽 可 能 压缩 在 一 个 较 小 的 表示 中 。 稀 玻 表 示 将 数 
据 集 竺 和 人 到 输入 项 大 多 数 为 零 的 表示 中 (Barlow, 1989; Olshausen and Field, 1996; 
Hinton and Ghahramani, 1997)。 稀 下 表示 通常 用 于 需要 增加 表示 维 数 的 情况 ， 使 得 
大 部 分 为 零 的 表示 不 会 丢失 很 多 信息 。 这 会 使 得 表示 的 整体 结构 倾向 于 将 数据 分 布 
在 表示 空间 的 坐标 轴 上 。 独 立 表示 试图 分 开 数 据 分 布 中 变化 的 来 源 ， 使 得 表示 的 维 
度 是 统计 独立 的 。 

当然 这 三 个 标准 并 非 相互 排斥 的 。 低 维 表示 通常 会 产生 比 原始 的 高 维 数据 具有 
较 少 或 较 弱 依赖 关系 的 元 素 。 这 是 因为 减少 表示 大 小 的 一 种 方式 是 找到 并 消除 宛 余 。 
识别 并 去 除 更 多 的 宛 余 使 得 降 维 算 法 在 丢失 更 少 信息 的 同时 显现 更 大 的 压缩 。 

表示 的 概念 是 深度 学 习 核 心 主题 之 一 ， 因 此 也 是 本 书 的 核心 主题 之 一 。 本 节 会 
介绍 表示 学 习 算法 中 的 一 些 简单 示例 。 总 的 来 说 ， 这 些 示例 算法 会 说 明 如 何 实施 上 
面 的 三 个 标准 。 剩 余 的 大 部 分 章节 会 介绍 额外 的 表示 学 习 算 法 ， 它 们 以 不 同方 式 处 
理 这 三 个 标准 或 是 引入 其 他 标准 。 





























5.8.1 ” 主 成 分 分 析 


在 第 2.12 节 中 ， 我 们 看 到 PCA 算法 提供 了 一 种 压缩 数据 的 方式 。 我 们 也 可 以 
BE PCA 视 为 学 习 数 据 表示 的 无 监督 学 习 算 法 。 这 种 表示 基于 上 述 简 单 表 示 的 两 个 标 
HE. PCA 学 习 一 种 比 原始 输入 维 数 更 低 的 表示 。 它 也 学 习 了 一 种 元 素 之 间 彼 此 没有 
线性 相关 的 表示 。 这 是 学 习 表 示 中 元 素 统计 独立 标准 的 第 一 步 。 要 实现 完全 独立 性 ， 
表示 学 习 算法 也 必须 去 掉 变 量 间 的 非 线 性 关系 。 
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如 图 5.8 所 示 ，PCA 将 输入 z 投影 表示 成 z， 学 习 数 据 的 正 交 线性 变换 。 在 
第 2.12 节 中 ， 我 们 看 到 了 如 何 学 习 重 建 原 始 数 据 的 最 佳 一 维 表示 ( 就 均 方 误差 而 
言 )， 这 种 表示 其 实 对 应 着 数据 的 第 一 个 主要 成 分 。 因 此 ,我 们 可 以 用 PCA 作为 保 
留 数据 尽 可 能 多 信息 的 降 维 方法 ( 再 次 就 最 小 重 构 误差 平方 而 言 )。 在 下 文中 ， 我 们 
将 研究 PCA 表示 如 何 使 原始 数据 表示 X 去 相关 的 . 


20 
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图 5.8: PCA 学 习 一 种 线性 投影 ， 使 最 大 方差 的 方向 和 新 空间 的 轴 对 齐 。( 左 ) 原始 数据 包含 了 z 
的 样本 。 在 这 个 空间 中 ,方差 的 方向 与 轴 的 方向 并 不 是 对 齐 的 。( 右 ) 变换 过 的 数据 > = mW ft 
轴 zi 的 方向 上 有 最 大 的 变化 。 第 二 大 变化 方差 的 方向 沿 着 轴 z2。 

















假设 有 一 个 m x n WEIER X, HENE, Ele] = 0。 若 非 如 此 ， 通 
过 预 处 理 步 又 使 所 有 样本 减 去 均值 ， 数 据 可 以 很 容易 地 中 心 化 。 
X 对 应 的 无 仿 样 本 协 方差 矩阵 给 定 如 下 











1 
Var[z] = XX (5.85) 
ma 





PCA 通过 线性 变换 找到 一 个 Var[ EAMES z= W' to 
在 第 2.12 节 , 我们 已 知 设计 矩阵 X 的 主 成 分 由 XO X 的 特征 向 量 给 定 。 从 这 个 
角度 ， 我 们 有 
X X= WAW'. (5.86) 
本 节 中 ， 我 们 会 探索 主 成 分 的 另 一 种 推导 。 主 成 分 也 可 以 通过 奇异 值 分 解 (SVD) 得 
到 。 有 具体 来 说 ， 它 们 是 X 的 右 奇异 向 量 。 为 了 说 明 这 点 ， 假 设 W 是 奇异 值 分 解 
X= UXW' 的 右 奇 异 向 量 。 以 W 作为 特征 向 量 基 ,我 们 可 以 得 到 原来 的 特征 向 量 
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方程 : 
X'X-(UXW') USW’ = WW. (5.87) 


SVD 有 助 于 说 明 PCA 后 的 Var[z] 是 对 角 的 。 使 用 X I SVD 4t, X 的 方差 





可 以 表示 为 
Var[z] l xx (5.88) 
z| = —— ] 
ar m=i 
1 e: 3 T 
=- Uw] UXW (5.89) 
1 R; 
= ———WxX'U UNEW' (5.90) 
m-—1 
1 M 
_ 91 
—QWEW, (5.91) 





其 中 ， 我 们 使 用 U'U-I, 因为 根据 奇异 值 的 定义 矩阵 UEH IRH z 的 





协 方差 满足 对 角 的 要 求 : 

Var[z] = — ag (5.92) 
= T YT yt 
-—WXXW (5.93) 
- lo wW wew w (5.94) 

m-— 1 

1 2 
=o’, (5.95) 





其 中 ， 再 次 使 用 SVD 的 定义 有 W'W-I. 

以 上 分 析 指 明 当 我 们 通过 线性 变换 W 将 数据 z 投影 到 z 时 ， 得 到 的 数据 表示 
的 协 方差 矩阵 是 对 角 的 CHI >? )， 立 刻 可 得 z 中 的 元 素 是 彼此 无 关 的 。 

PCA 这 种 将 数据 变换 为 元 素 之 间 彼 此 不 相关 表示 的 能 力 是 PCA 的 一 个 重要 性 
质 。 它 是 消除 数据 中 未 知 变化 因素 的 简单 表示 示例 。 在 PCA 中 ， 这 个 消除 是 通过 寻 
找 输 入 空间 的 一 个 旋转 (由 W 确定 )， 使 得 方差 的 主 坐 标 和 z 相关 的 新 表示 空间 的 
基 对 齐 。 

虽然 相关 性 是 数据 元 素 间 依 赖 关 系 的 一 个 重要 范畴 ， 但 我 们 对 于 能 够 消除 更 复 
杂 形 式 的 特征 依赖 的 表示 学 习 也 很 感 兴 趣 。 对 此 ， 我 们 需要 比 简单 线性 变换 更 强 的 
T.H. 
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ww ai bbt.com r1 E BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
5.8 无 监督 学 习 算法 131 


5.8.2 -均值 聚 类 





另外 一 个 简单 的 表示 学 习 算法 是 大 均 值 聚 类 。 大 均值 聚 类 算法 将 训练 集 分 成 大 
个 靠近 彼此 的 不 同样 本 聚 类 。 因 此 我 们 可 以 认为 该 算法 提供 了 万 维 的 one-hot 编码 
向 量 h 以 表示 输入 z。 当 a 属于 聚 类 i 时 ， 有 — 1，h 的 其 他 项 为 零 。 

人 均值 聚 类 提供 的 one-hot 编码 也 是 一 种 稀 足 表示 ， 因 为 每 个 输入 的 表示 中 大 
部 分 元 素 为 零 。 之 后 ， 我 们 会 介绍 能 够 学 习 更 灵活 的 稀 朴 表示 的 一 些 其 他 算法 Ce 
示 中 每 个 输入 = 不 只 一 个 非 零 项 )。one-hot 编码 是 稀 琉 表示 的 一 个 极端 示例 ， 丢 失 
了 很 多 分 布 式 表示 的 优点 。one-hot 编码 仍然 有 一 些 统计 优点 ( 自然 地 传达 了 相同 聚 
类 中 的 样本 彼此 相似 的 观点 )， 也 具有 计算 上 的 优势 ， 因 为 整个 表示 可 以 用 一 个 单独 
的 整数 表示 。 

记 均 值 聚 类 初始 化 个 不 同 的 中 心 点 (i0, ... (9j， 然 后 迭代 交换 两 个 不 同 
的 步骤 直到 收敛 。 步 骤 一 ， 每 个 训练 样本 分 配 到 最 近 的 中 心 点 J 所 代表 的 聚 类 i 
步 又 二 ， 每 一 个 中 心 点 a. 更 新 为 聚 类 i 中 所 有 训练 样本 a 的 均值 。 

关于 聚 类 的 一 个 问题 是 聚 类 问题 本 身 是 病态 的 。 这 是 说 没有 单一 的 标准 去 度量 
聚 类 的 数据 在 真实 世界 中 效果 如 何 。 我 们 可 以 度量 聚 关 的 性 质 ， 例 如 类 中 元 素 到 类 
中 心 点 的 欧 几 里 得 距离 的 均值 。 这 使 我 们 可 以 判断 从 聚 类 分 配 中 重建 训练 数据 的 效 
果 如 何 。 然 而 我 们 不 知道 聚 类 的 性 质 是 否 很 好 地 对 应 到 真实 世界 的 性 质 。 此 外 ， 可 
能 有 许多 不 同 的 聚 类 都 能 很 好 地 对 应 到 现实 世界 的 某 些 属性 。 我 们 可 能 希望 找到 和 
一 个 特征 相关 的 聚 类 ， 但 是 得 到 了 一 个 和 任务 无 关 的 ， 同 样 是 合理 的 不 同 聚 类 。 例 
如 ， 假 设 我 们 在 包含 红色 卡车 图 片 、 红 色 汽车 图 片 、 灰 色 卡车 图 片 和 灰色 汽车 图 片 
的 数据 集 上 运行 两 个 聚 类 算法 。 如 果 每 个 聚 类 算法 聚 两 类 ， 那 么 可 能 一 个 算法 将 汽 
车 和 卡车 各 聚 一 类 ， 另 一 个 根据 红色 和 灰色 各 聚 一 类 。 假 设 我 们 还 运行 了 第 三 个 到 
类 算法 ， 用 来 决定 类 别 的 数目 。 这 有 可 能 聚 成 了 四 类 ,红色 卡车 、 红 色 汽 车 、 灰 色 卡 
车 和 灰色 汽车 。 现 在 这 个 新 的 聚 类 至 少 抓 住 了 属性 的 信息 ， 但 是 丢失 了 相似 性 信息 。 
红色 汽车 和 灰色 汽车 在 不 同 的 类 中 ， 正 如 红色 汽车 和 灰色 卡车 也 在 不 同 的 类 中 。 该 
聚 类 算法 没有 售 诉 我 们 灰色 汽车 和 红色 汽车 的 相似 度 比 灰 色 卡 车 和 红色 汽车 的 相似 
度 更 高 。 我 们 只 知道 它们 是 不 同 的 。 

这 些 问 题 说 明了 一 些 我 们 可 能 更 偏好 于 分 布 式 表示 ( 相对 于 one-hot 表示 而 言 ) 
的 原因 。 分 布 式 表示 可 以 对 每 个 车 辆 赋予 两 个 属性 一 一 个 表示 它 颜色 ， 一 个 表示 
它 是 汽车 还 是 卡车 。 目 前 仍然 不 清楚 什么 是 最 优 的 分 布 式 表示 (学 习 算法 如 何 知道 
我 们 关心 的 两 个 属性 是 颜色 和 是 否 汽车 或 卡车 ， 而 不 是 制造 商 和 车 龄 ? )， 但 是 多 个 
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属性 减少 了 算法 去 猜 我 们 关心 哪 一 个 属性 的 负担 ， 人 允许 我 们 通过 比较 很 多 属性 而 非 
测试 一 个 单一 属性 来 细 粒 度 地 度量 相似 性 





5.9 ”随机 梯度 下 降 


几乎 所 有 的 深度 学 习 算法 都 用 到 了 一 个 非常 重要 的 算法 随机 梯度 下 降 
(stochastic gradient descent, SGD ) 。 随 机 梯度 下 降 是 第 4.3 节 介绍 的 梯度 下 降 算 


法 的 一 个 扩展 。 
机 融 学 习 中 反复 出 现 的 一 个 问题 是 好 的 泛 化 需要 大 的 训练 集 ， 但 大 的 训练 集 的 
计算 代价 也 更 大 。 


机 器 学 习 算法 中 的 代价 函数 通常 可 以 分 解 成 每 个 样本 的 代价 函数 的 总 和 。 例 如 ， 
训练 数据 的 负 条 件 对 数 似 然 可 以 写成 


J(0) 一 下 -yp L o» 9, y (0,8), (5.96) 

















Hop L 是 每 个 样本 的 损失 L(x,y,0) = — log p(y | 2:0). 
对 于 这 些 相 加 的 代价 函数 ， 下 降 需 要 计算 
VeJ(0 OX ) y, g). (5.97) 
这 个 运算 的 计算 代价 是 O(m)。 随 着 训练 集 规模 增长 为 数 十 亿 的 样本 ， 计 算 一 步 梯 度 
会 消耗 相当 长 的 时 间 。 
随机 梯度 下 降 的 核心 是 ， 梯 度 是 期 望 。 期 望 可 使 用 小 规模 的 样本 近似 估计 。 具 


体 而 言 ， 在 算法 的 每 一 步 ， 我 们 从 训练 集中 均匀 抽出 一 小 批量 (minibatch ) 样本 
B = (a(0,..., zx"™)}。 小 批量 的 数目 m a at 从 一 到 几 百 。 重 





要 的 是 ， 当 训练 集 大 小 m 增长 时 ，my 是 固定 的 。 我 们 可 能 在 拟 合 几 十 亿 的 样 
本 时 ， D A 
梯度 的 估计 可 以 表示 成 
1 m’ | 
g= Ve dL", 9,0). (5.98) 


i=l 
使 用 来 自 小 批量 B 的 样本 。 然 后 ， 随 机 梯度 下 降 算法 使 用 如 下 的 梯度 下 降 估 计 : 
0 — 0 — eg, (5.99) 
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其 中 ，e 是 学 习 率 。 

梯度 下 降 往 往 被 认为 很 慢 或 不 可 靠 。 以 前 ， 将 梯度 下 降 应 用 到 非 凸 优化 问题 被 
认为 很 鲁莽 或 没有 原则 。 现 在 ， 我 们 知道 梯度 下 降 用 于 本 书 第 二 部 分 中 的 训练 时 效 
果 不 错 。 优 化 算法 不 一 定 能 保证 在 合理 的 时 间 内 达到 一 个 局 部 最 小 值 ， 但 它 通常 能 
及 时 地 找到 代价 函数 一 个 很 小 的 值 ， 并 且 是 有 用 的 。 

随机 梯度 下 降 在 深度 学 习 之 外 有 很 多 重要 的 应 用 。 它 是 在 大 规模 数据 上 训练 大 
型 线性 模型 的 主要 方法 。 对 于 固定 大 小 的 模型 ， 每 一 步 随机 梯度 下 降 更 新 的 计算 量 
不 取决 于 训练 集 的 大 小 m。 在 实践 中 ， 当 训练 集 大 小 增长 时 ， 我 们 通常 会 使 用 一 个 
更 大 的 模型 ， 但 这 并 非 是 必须 的 。 达 到 收敛 所 需 的 更 新 次 数 通 常会 随 训 练 集 规模 增 
大 而 增加 。 然 而 ， 当 m 趋向 于 无 穷 大 时 ， 该 模型 最 终 会 在 随机 梯度 下 降 抽 样 完 训 练 
集 上 的 所 有 样本 之 前 收敛 到 可 能 的 最 优 测试 误差 。 继 续 增加 m 不 会 延长 达到 模型 可 
能 的 最 优 测试 误差 的 时 间 。 从 这 点 来 看 ， 我 们 可 以 认为 用 SGD 训练 模型 的 渐 近 代价 
是 关于 m 的 函数 的 O(1) 级 别 。 

在 深度 学 习 兴 起 之 前 ， 学 习 非 线性 模型 的 主要 方法 是 结合 核 技 巧 的 线性 模型 。 
很 多 核 学 习 算 法 需要 构建 一 个 m x m 的 矩阵 Gi = h(a, a0). 构建 这 个 矩阵 的 计 
算 量 是 O(m2)。 当 数据 集 是 几 十 亿 个 样本 时 ,， 这 个 计算 量 是 不 能 接受 的 。 在 学 术 界 ， 
深度 学 习 从 2006 年 开始 收 到 关注 的 原因 是 ， 在 数 以 万 计 样 本 的 中 等 规模 数据 集 上 ， 
深度 学 习 在 新 样本 上 比 当 时 很 多 热门 算法 泛 化 得 更 好 。 不 久 后 ， 深 度 学 习 在 工业 界 
受到 了 更 多 的 关注 ， 因 为 其 提供 了 一 种 训练 大 数据 集 上 的 非 线性 模型 的 可 扩展 方式 。 
我 们 将 会 在 第 八 章 继续 探讨 随机 梯度 下 降 及 其 很 多 改进 方法 。 














5.10 ”构建 机 器 学 习 算 法 


几乎 所 有 的 深度 学 习 算 法 都 可 以 被 描述 为 一 个 相当 简单 的 配方 : 特定 的 数据 集 、 
代价 函数 、 优 化 过 程 和 模型 。 
例如 ， 线 性 回归 算法 由 以 下 部 分 组 成 : XA y 构成 的 数据 集 ， 代 价 函数 














J (w, b) = Ex,y~Paata log Pmodel (Y | z), (5.100) 


模型 是 Pmodel (Y | a) = A (y; zw T b, 1) , 在 大 多 数 情况 下 , 优化 算法 可 以 定义 为 求 
解 代价 函数 梯度 为 零 的 正规 方程 。 
意识 到 我 们 可 以 替换 独立 于 其 他 组 件 的 大 多 数组 件 ， 因 此 我 们 能 得 到 很 多 不 同 


ww ai bbc. com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
134 第 五 章 ”机 器 学 习 基 础 


的 算法 。 
通常 代价 函数 至 少 含有 一 项 使 学 习 过 程 进行 统计 估计 的 成 分 。 最 常见 的 代价 函 
数 是 负 对 数 似 然 ， 最 小 化 代价 函数 导致 的 最 大 似 然 估计 。 


代价 函数 也 可 能 含有 附加 项 ， 如 正则 化 项 。 例 如 ， 我 们 可 以 将 权重 衰减 加 到 线 
性 回归 的 代价 函数 中 














J(w, b) = || ell) — Ex.y~Pantn 108 Pmoaa (y | €). (5.101) 





该 优化 仍然 有 闭 解 。 

如 果 我 们 将 该 模型 变 成 非 线 性 的 ， 那么 大 多 数 代 价 函 数 不 再 能 通过 闭 解 优化 。 
这 就 要 求 我 们 选择 一 个 迭代 数值 优化 过 程 ， 如 梯度 下 降 等 

组 合 模型 、 代 价 和 优化 算法 来 构建 学 习 算法 的 配方 同时 适用 于 监督 学 习 和 无 监 
督学 习 。 线 性 回归 示例 说 明了 如 何 适 用 于 监督 学 习 的 。 无 监督 学 习 时 ， 我 们 需要 定 
义 一 个 只 包含 X 的 数据 集 、 一 个 合适 的 无 监督 代价 和 一 个 模型 。 例 如 ， 通 过 指定 如 
下 损失 函数 可 以 得 到 PCA 的 第 一 个 主 向 量 

















J(w) = 了 cause [le — r(as w) (5.102) 





模型 定义 为 重 构 函 数 r(z) = w! zw, IFA w 有 范 数 为 1 的 限制 。 

在 某 些 情况 下 ,由 于 计算 原因 , 我 们 不 能 实际 计算 代价 函数 。 在 这 种 情况 下 ， 只 
要 我 们 有 近似 其 梯度 的 方法 ， 那 么 我 们 仍然 可 以 使 用 和 迭代 数值 优化 近似 最 小 化 目标 。 

尽管 有 时 候 不 显然 , 但 大 多 数学 习 算 法 都 用 到 了 上 述 配 方 。 如 果 一 个 机 器 学 习 算 
法 看 上 去 特别 独特 或 是 手动 设计 的 ， 那么 通常 需要 使 用 特殊 的 优化 方法 进行 求解 。 
有 些 模 型 ， 如 决策 树 或 均值 ， 需 要 特殊 的 优化 ， 因 为 它们 的 代价 函数 有 平坦 的 区 
域 ， 使 其 不 适合 通过 基于 梯度 的 优化 去 最 小 化 。 在 我 们 认识 到 大 部 分 机 器 学 习 算 法 
可 以 使 用 上 述 配方 描述 之 后 ， 我 们 可 以 将 不 同 算法 视 为 出 于 相同 原因 解决 相关 问题 
的 一 类 方法 ， 而 不 是 一 长 串 各 个 不 同 的 算法 。 











5.11 促使 深度 学 习 发 展 的 挑战 


本 章 描 述 的 简单 机 器 学 习 算 法 在 很 多 不 同 的 重要 问题 上 效果 都 良好 。 但 是 它们 
不 能 成 功 解决 人 工 智能 中 的 核心 问题 ， 如 语音 识别 或 者 对 象 识别 。 
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深度 学 习 发 展 动机 的 一 部 分 原因 是 传统 学 习 算 法 在 这 类 人 工 智 能 问题 上 泛 化 能 
力 不 足 。 

本 节 介 绍 为 何 处 理 高 维 数据 时 在 新 样本 上 泛 化 特别 困难 ， 以 及 为 何在 传统 机 央 
学 习 中 实现 泛 化 的 机 制 不 适合 学 习 高 维 空间 中 复杂 的 函数 。 这 些 空间 经 常 涉及 巨大 
的 计算 代价 。 深 度 学 习 旨 在 克服 这 些 以 及 其 他 一 些 难题 。 











5.11.1 ” 维 数 灾难 


当 数 据 的 维 数 很 高 时 ， 很 多 机 器 学 习 问 题 变 得 相当 困难 。 这 种 现象 被 称 为 维 数 
灾难 (curse of dimensionality )。 特 别 值得 注意 的 是 ， 一 组 变量 不 同 的 可 能 配置 数量 
会 随 着 变量 数目 的 增加 而 指数 级 增长 。 

维 数 灾 难 发 生 在 计算 机 科学 的 许多 地 方 ， 在 机 器 学 习 中 尤其 如 此 。 

由 维 数 灾难 带 来 的 一 个 挑战 是 统计 挑战 。 如 图 5.9 所 示 ， 统 计 挑 战 产 生 于 x 的 可 
能 配置 数目 远大 于 训练 样本 的 数目 。 为 了 充分 理解 这 个 问题 ， 我 们 假设 输入 空间 如 
图 所 示 被 分 成 网 格 。 低 维 时 我 们 可 以 用 由 数据 占据 的 少量 网 格 去 描述 这 个 空间 。 泛 
化 到 新 数据 点 时 ， 通 过 检测 和 新 输入 在 相同 网 格 中 的 训练 样本 ， 我 们 可 以 判断 如 何 
处 理 新 数据 点 。 例 如 ， 如 果 要 估计 某 点 c 处 的 概率 密度 ， 我 们 可 以 返回 a 处 单位 体 
积 内 训练 样本 的 数目 除 以 训练 样本 的 总 数 。 如 果 我 们 希望 对 一 个 样本 进行 分 类 ， 我 
们 可 以 返回 相同 网 格 中 训练 样本 最 多 的 类 别 。 如 果 我 们 是 做 回归 分 析 ， 我 们 可 以 平 
均 该 网 格 中 样本 对 应 的 的 目标 值 。 但 是 ， 如 果 该 网 格 中 没有 样本 ， 该 怎么 办 呢 ? 因为 
在 高 维 空间 中 参数 配置 数目 远大 于 样本 数目 ， 大 部 分 配置 没有 相关 的 样本 。 我 们 如 
何 能 在 这 些 新 配置 中 找到 一 些 有 意义 的 东西 呢 ? 许多 传统 机 器 学 习 算 法 只 是 简单 地 
假设 在 一 个 新 点 的 输出 应 大 致 和 最 接近 的 训练 点 的 输出 相同 。 

















5.11.2 ”局 部 不 变性 和 平滑 正则 化 


为 了 更 好 地 泛 化 ， 机 顺 学 习 算 法 需要 由 先 验 信念 引导 应 该 学 习 什 么 类 型 的 函数 。 
此 前 , 我 们 已 经 看 到 过 由 模型 参数 的 概率 分 布 形成 的 先 验 。 通俗 地 讲 , 我 们 也 可 以 说 
先 验 信念 直接 影响 函数 本 身 ， 而 仪 仅 通过 它们 对 函数 的 影响 来 间接 改变 参数 。 此 外 ， 
我 们 还 能 通俗 地 说 ， 先 验 信 念 还 间接 地 体现 在 选择 一 些 偏好 某 类 函数 的 算法 ， 尽 管 
这 些 仿 好 并 没有 通过 我 们 对 不 同 函 数 置 信 程 度 的 概率 分 布 表 现 出 来 (也许 根 本 没 法 
表现 )。 
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图 5.9: 当 数 据 的 相关 维度 增 大 时 (从 左 向 右 ), 我 们 感 兴趣 的 配置 数目 会 随 之 指数 级 增长 。( 左 ) 在 
这 个 一 维 的 例子 中 ， 我 们 用 一 个 变量 来 区 分 所 感 兴趣 的 仅仅 10 个 区 域 。 当 每 个 区 域 都 有 足够 的 样 
本 数 时 (图 中 每 个 样本 对 应 了 一 个 细胞 )， 学 习 算法 能 够 轻易 地 泛 化 得 很 好 。 泛 化 的 一 个 直接 方法 
是 估计 目标 函数 在 每 个 区 域 的 值 ( 可 能 是 在 相 邻 区 域 之 间 插 值 )。( 中 ) 在 二 维 情况 下 ， 对 每 个 变量 
区 分 10 个 不 同 的 值 更 加 困难 。 我 们 需要 追踪 10 x 10 = 100 个 区 域 ， 至 少 需要 很 多 样本 来 覆盖 所 
有 的 区 域 。( 右 ) 三 维 情况 下 ， 区 域 数 量 增 加 到 了 103 = 1000， 至 少 需 要 那么 多 的 样本 。 对 于 需要 
区 分 的 d 维 以 及 v MERK, RTEZ OW) 个 区 域 和 样本 。 这 就 是 维 数 灾难 的 一 个 示例 。 感 谢 
由 Nicolas Chapados 提供 的 图 片 。 


















































其 中 最 广泛 使 用 的 隐 式 “ 先 验 ” 是 平滑 先 验 (smoothness prior )， 或 局 部 不 变 
性 先 验 (local constancy prior )。 这 个 先 验 表明 我 们 学 习 的 函数 不 应 在 小 区 域内 发 生 
很 大 的 变化 。 

许多 简单 算法 完全 依赖 于 此 先 验 达 到 良好 的 泛 化 ， 其 结果 是 不 能 推广 去 解决 人 
工 智能 级 别 任务 中 的 统计 挑战 。 本 书 中 ， 我 们 将 介绍 深度 学 习 如 何 引 入 额外 的 〈 显 
式 或 隐 式 的 ) 先 验 去 降低 复杂 任务 中 的 泛 化 误差 。 这 里 ， 我 们 解释 为 什么 仪 依靠 平 
滑 先 验 不 足以 应 对 这 类 任务 。 

有 许多 不 同 的 方法 来 显 式 或 隐 式 地 表示 学 习 困 数 应 该 具有 光滑 或 局 部 不 变 的 先 
验 。 所 有 这 些 不 同 的 方法 都 间 在 鼓励 学 习 过 程 能 够 学 习 出 函数 f* 对 于 大 多 数 设置 x 
和 小 变动 e， 都 满足 条 件 








f(a) ~ f (a e). (5.103) 


换言之 ， 如 果 我 们 知道 对 应 输入 z 的 答案 ( 例如 ，z 是 个 有 标签 的 训练 样本 )， 那 么 
该 答案 对 于 z 的 邻 域 应 该 也 适用 。 如 果 在 有 些 邻 域 中 我 们 有 几 个 好 答案 ， 那 么 我 们 
可 以 组 合 它 们 (通过 某 种 形式 的 平均 或 插值 法 ) 以 产生 一 个 尽 可 能 和 大 多 数 输 入 一 
致 的 答案 。 
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局 部 不 变 方法 的 一 个 极端 例子 是 太 最 近邻 系列 的 学 习 算 法 。 当 一 个 区 域 里 的 所 
有 点 z 在 训练 集中 的 大 个 最 近邻 是 一 样 的 ， 那么 对 这 些 点 的 预测 也 是 一 样 的 。 当 
k — 1 Bf, 不同 区 域 的 数目 不 会 比 训练 样本 还 多 。 

虽然 最 近邻 算法 复制 了 附近 训练 样本 的 输出 ， 大 部 分 核 机 器 也 是 在 和 附近 训 
练 样本 相关 的 训练 集 输出 上 插值 。 一 类 重要 的 核 函 数 是 局 部 核 (local kernel )， 其 核 
PAA klu, v) Æ u= wv 时 很 大 ， 当 u 和 w 距离 拉 大 时 而 减 小 。 局 部 核 可 以 看 作 是 执 
行 模版 匹配 的 相似 函数 ， 用 于 度量 测试 样本 z 和 每 个 训练 样本 O 有 和 多么 相似 。 近 
年 来 深度 学 习 的 很 多 推动 力 源 自 研究 局 部 模版 匹配 的 局 限 性 ， 以 及 深度 学 习 如 何 克 
服 这 些 局 限 性 (Bengio et al., 2006a)。 

决策 树 也 有 平滑 学 习 的 局 限 性 ， 因 为 它 将 输入 空间 分 成 和 叶 节 点 一 样 多 的 区 间 ， 
并 在 每 个 区 间 使 用 单独 的 参数 (或 者 有 些 决 策 树 的 拓展 有 多 个 参数 )。 如 果 目 标 函 数 
需要 至 少 拥 有 n 个 叶 节 点 的 树 才能 精确 表示 ， 那 么 至 少 需要 n 个 训练 样本 去 拟 合 。 
需要 几 倍 于 n 的 样本 去 达到 预测 输出 上 的 某 种 统计 置信 和 度 。 

总 的 来 说 ， 区 分 输入 空间 中 O(k) 个 区 间 ， 所 有 的 这 些 方法 需要 O(k) 个 样本 。 
通常 会 有 O(k)T 298, O(1) 参数 对 应 于 Ok) 区 间 之 一 。 最 近邻 算法 中 ， 每 个 训 
练 样本 至 多 用 于 定义 一 个 区 间 ， 如 图 5.10 所 示 。 


O 














图 5.10: 最 近邻 算法 如 何 划分 输入 空间 的 示例 。 每 个 区 域内 的 一 个 样本 〈 这 里 用 圆圈 表示 ) 定义 了 
区 域 边界 (这 里 用 线 表示 )。 每 个 样本 相关 的 y 值 定义 了 对 应 区 域内 所 有 数据 点 的 输出 。 由 最 近 
邻 定义 并 且 匹 配 几 何 模式 的 区 域 被 称 为 Voronoi 图 。 这 些 连 续 区 域 的 数量 不 会 比 训练 样本 的 数量 
兽 加 得 更 快 。 尽 管 此 图 具体 说 明了 最 近邻 算法 的 效果 ， 其 他 的 单纯 依赖 局 部 光滑 先 验 的 机 器 学 习 
算法 也 表现 出 了 类 似 的 泛 化 能 力 : 每 个 训练 样本 仅仅 能 告诉 学 习 者 如 何在 其 周围 的 相 邻 区 域 泛 化 。 





















































有 没有 什么 方法 能 表示 区 间 数 目 比 训练 样本 数目 还 多 的 复杂 函数 ? 显然， 只 是 
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假设 函数 的 平滑 性 不 能 做 到 这 点 。 例如， 想象 目标 函数 作用 在 西洋 跳棋 盘 上 。 棋盘 包 
含 许多 变化 ,但 只 有 一 个 简单 的 结构 。 想 象 一 下 ， 如 果 训 练 样本 数目 远 小 于 棋盘 上 
的 黑白 方块 数目 ， 那 么 会 发 生 什么 。 基 于 局 部 泛 化 和 平滑 性 或 局 部 不 变性 先 验 ， 如 
果 新 点 和 某 个 训练 样本 位 于 相同 的 棋盘 方块 中 ， 那 么 我 们 能 够 保证 正确 地 预测 新 点 
的 颜色 。 但 如 果 新 点 所 在 的 方块 没有 训练 样本 ， 学 习 器 不 一 定 能 举一反三 。 如 果 仅 
依靠 这 个 先 验 ， 一 个 样本 只 能 告诉 我 们 它 所 在 的 方块 的 颜色 。 获 得 整个 棋盘 颜色 的 
唯一 方法 是 其 上 的 每 个 方块 至 少 要 有 一 个 样本 。 

只 要 在 要 学 习 的 真实 函数 的 峰值 和 谷 值 处 有 足够 多 的 样本 ， 那 么 平滑 性 假设 和 
相关 的 无 参数 学 习 算 法 的 效果 都 非常 好 。 当 要 学 习 的 函数 足够 平滑 ， 并 且 只 在 少数 
几 维 变化 ， 这 样 做 一 般 没 问题 。 在 高 维 空间 中 ， 即 使 是 非常 平滑 的 函数 ， 也 会 在 不 
同 维度 上 有 不 同 的 变化 方式 。 如 果 函 数 在 不 同 的 区 间 中 表现 不 一 样 ， 那 么 就 非常 难 
用 一 组 训练 样本 去 刻画 函数 。 如 果 函 数 是 复杂 的 (我 们 想 区 分 多 于 训练 样本 数目 的 
大 量 区 间 )， 有 希望 很 好 地 泛 化 么 ? 

这 些 问 题 ， 即 是 否 可 以 有 效 地 表示 复杂 的 函数 以 及 所 估计 的 函数 是 否 可 以 很 好 
地 泛 化 到 新 的 输入 ， 答案 是 有 。 关 键 观点 是 ， 只 要 我 们 通过 和 额外 假设 生成 数据 的 分 
布 来 建立 区 域 间 的 依赖 关系 ,那么 O(k) 个 样本 足以 描述 多 如 0O(2*) 的 大 量 区 间 。 通 
过 这 种 方式 ， 我 们 确实 能 做 到 非 局 部 的 泛 化 (Bengio and Monperrus, 2005; Bengio 
et al., 2006b)。 为 了 利用 这 些 优势 ， 许 多 不 同 的 深度 学 习 算 法 都 提出 了 一 些 适用 于 多 
种 AI 任 务 的 隐 式 或 显 式 的 假设 。 

一 些 其 他 的 机 器 学 习 方 法 往往 会 提出 更 强 的 ， 针 对 特定 问题 的 假设 。 例 如 ， 假 
设 目 标 函 数 是 周期 性 的 , 我 们 很 容易 解决 棋盘 问题 。 通常 ,神经 网 络 不 会 包含 这 些 很 
强 的 (针对 特定 任务 的 ) 假设 ， 因 此 神经 网 络 可 以 泛 化 到 更 广泛 的 各 种 结构 中 。 人 
工 智能 任务 的 结构 非常 复杂 ， 很 难 限 制 到 简单 的 、 人 工 手动 指定 的 性 质 ， 如 周期 性 ， 
因此 我 们 希望 学 习 算 法 具有 更 通用 的 假设 。 深 度 学 习 的 核心 思想 是 假设 数据 由 因素 
或 特征 组 合 产 生 ， 这 些 因素 或 特征 可 能 来 自 一 个 层次 结构 的 多 个 层级 。 许 多 其 他 类 
似 的 通用 假设 进一步 提高 了 深度 学 习 算 法 。 这 些 很 温和 的 假设 允许 了 样本 数目 和 可 
区 分 区 间 数 目 之 间 的 指数 增益 。 这 类 指数 增益 将 在 第 6.4.1 节 、 第 15.4 节 和 第 15.5 节 
中 更 详尽 地 介绍 。 深 度 的 分 布 式 表示 带 来 的 指数 增益 有 效 地 解决 了 维 数 灾难 带 来 的 
HR 
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5.11.3 HEZI 


流 形 是 一 个 机 器 学 习 中 很 多 想法 内 在 的 重要 概念 。 

WEE (manifold) 指 连 接 在 一 起 的 区 域 。 数 学 上 ， 它 是 指 一 组 点 ， 且 每 个 点 都 
有 其 邻 域 。 给 定 一 个 任意 的 点 ， 其 流 形 局 部 看 起 来 像 是 欧 几 里 得 空间 日 常生 活 中 ， 
我 们 将 地 球 视 为 二 维 平面 ， 但 实际 上 它 是 三 维 空间 中 的 球状 流 形 。 

每 个 点 周围 邻 域 的 定义 暗示 着 存在 变换 能 够 从 一 个 位 置 移动 到 其 邻 域 位 置 。 例 
如 在 地 球 表 面 这 个 流 形 中， 我 们 可 以 朝 东南 西北 走 。 

尽管 术语 “ 流 形 ” 有 正式 的 数学 定义 ， 但 是 机 器 学 习 倾向 于 更 松散 地 定义 一 组 
点 ， 只 需要 考虑 少数 嵌入 在 高 维 空间 中 的 自由 度 或 维 数 就 能 很 好 地 近似 。 每 一 维 都 
对 应 着 局 部 的 变化 方向 。 如 图 5.11 所 示 ， 训 练 数据 位 于 二 维 空间 中 的 一 维 流 形 中 。 
在 机 器 学 习 中 ， 我 们 允许 流 形 的 维 数 从 一 个 点 到 另 二 个 点 有 所 变化 。 这 经 常 发 生 于 
流 形 和 自身 相交 的 情况 中 。 例 如 ， 数 字 “8” 形 状 的 流 形 在 大 多 数位 置 只 有 一 维 ， 但 
在 中 心 的 相交 处 有 两 维 。 














图 5.11: 从 一 个 二 维 空间 的 分 布 中 抽取 的 数据 样本 ,这 些 样本 实际 上 聚集 在 一 维 流 形 附 近 , 像 一 个 
缠绕 的 带子 。 实 线 代 表 学 习 器 应 该 推断 的 隐 式 流 形 。 


如 果 我 们 和 希望 机 器 学 习 算 法 学 习 整 个 及 ”上 有 趣 变化 的 函数 ， 那 么 很 多 机 器 学 
习 问 题 看 上 去 都 是 无 望 的 。 流 形 学 习 ( manifold learning ) 算法 通过 一 个 假设 来 克服 
这 个 障碍 ,该 假设 认为 及 ”中 大 部 分 区 域 都 是 无 效 的 输入 , 有 意义 的 输入 只 分 布 在 包 
含 少量 数据 点 的 子 集 构成 的 一 组 流 形 中 ， 而 学 习 函 数 的 输出 中 ， 有 意义 的 变化 都 沿 
着 流 形 的 方向 或 仅 发 生 在 我 们 切换 到 另 一 流 形 时 。 流 形 学 习 最 初 用 于 连续 数值 和 无 
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监督 学 习 的 环境 ， 尽管 这 个 概率 集中 的 想法 也 能 够 泛 化 到 离散 数据 和 监督 学 习 的 设 
AE B: 关键 假设 仍然 是 概率 质量 高 度 集中 。 





图 5.12: 随机 地 均匀 抽取 图 像 (根据 均匀 分 布 随 机 地 选择 每 一 个 像素 ) 会 得 到 噪声 图 像 。 尽 管 在 人 

能 应 用 中 以 这 种 | 图 像 是 非 零 概率 的 ， 但 是 实际 上 我 们 从 来 没 
有 观察 到 这 种 现象 。 意味 着 人 工 智能 应 用 中 遇 到 的 图 像 在 所 有 图 像 空间 中 的 占 比 可 以 是 忽略 
不 计 的 。 





数据 位 于 低 维 流 形 的 假设 并 不 总 是 对 的 或 者 有 用 的 。 我 们 认为 在 人 工 智 能 的 一 
些 场景 中 ， 如 涉及 到 处 理 图 像 、 声 音 或 者 文本 时 ， 流 形 假 设 至 少 是 近似 对 的 。 这 个 
假设 的 支持 证 据 包 含 两 类 观察 结果 。 

第 一 个 支持 流 形 假设 (manifold hypothesis ) 的 观察 是 现实 生活 中 的 图 像 、 文 
本 、 声 音 的 概率 分 布 都 是 高 度 集中 的 。 均 匀 的 噪声 从 来 不 会 与 这 类 领域 的 结构 化 输 
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和 人 类似。 图 5.12 显示 均匀 采样 的 点 看 上 去 像 是 没有 信和 号 时 模拟 电视 上 的 静态 模式 。 
同样 ， 如 果 我 们 均匀 地 随机 抽取 字母 来 生成 文件 ， 能 有 多 大 的 概率 得 到 一 个 有 意义 
的 英语 文档 ”几乎 是 零 。 因 为 大 部 分 字母 长 序列 不 对 应 着 自然 语言 序列 : 自然 语言 
序列 的 分 布 只 占 了 字母 序列 的 总 空间 里 非常 小 的 一 部 分 。 

当然 ， 集 中 的 概率 分 布 不 足以 说 明 数 据 位 于 一 个 相当 小 的 流 形 中 。 我 们 还 必须 
确保 ,我 们 遇 到 的 样本 和 其 他 样本 相互 连接 ， 每 个 样本 被 其 他 高 度 相 似 的 样本 包围 ， 
而 这 些 高 度 相似 的 样本 可 以 通过 变换 来 遍历 该 流 形 得 到 。 文 持 流 形 假设 的 第 二 个 论 
点 是 ， 我 们 至 少 能 够 非 正式 地 想象 这 些 邻 域 和 变换 。 在 图 像 中 ， 我 们 当然 会 认为 有 
很 多 可 能 的 变换 仍然 允许 我 们 描绘 出 图 片 空间 的 流 形 : 我 们 可 以 逐渐 变 暗 或 变 亮 》 
泽 、 逐 步 移动 或 旋转 图 中 对 象 、 逐 渐 改 变 对 象 表面 的 颜色 等 等 。 在 大 多 数 应 用 中 很 
有 可 能 会 涉及 到 多 个 流 形 。 例 如 ， 人 脸 图 像 的 流 形 不 太 可 能 连接 到 猫 脸 图 像 的 流 形 。 

这 些 文 持 流 形 假设 的 思维 实验 传递 了 一 些 文 持 它 的 直观 理由 。 更 严格 的 实 
验 (Cayton, 2005; Narayanan and Mitter, 2010; Schólkopf et al., 1998a; Roweis and 
Saul, 2000; Tenenbaum et al., 2000; Brand, 2003a; Belkin and Niyogi, 2003b; Donoho 
and Grimes, 2003; Weinberger and Saul, 2004a) 在 人 工 智 能 中 备 受 关注 的 一 大 类 数 
据 集 上 支持 了 这 个 假设 。 

当 数 据 位 于 低 维 流 形 中 时 , 使 用 流 形 中 的 坐标 而 非 R” 中 的 坐标 表示 机 带 学 习 数 
据 更 为 自然 。 日 常生 活 中 ， 我 们 可 以 认为 道路 是 般 入 在 三 维 空间 的 一 维 流 形 。 我 们 
用 一 维 道路 中 的 地 址 号 码 确定 地 址 ， 而 非 三 维 空间 中 的 坐标 。 提 取 这 些 流 形 中 的 坐 
标 是 非常 具有 挑战 性 的 ， 但 是 很 有 和 希望 改进 许多 机 器 学 习 算 法 。 这 个 一 般 性 原则 能 
够 用 在 很 多 情况 中 。 图 5.13 展示 了 包含 人 脸 的 数据 集 的 流 形 结构 。 在 本 书 的 最 后 ， 
我 们 会 介绍 一 些 学习 这 样 的 流 形 结构 的 必 备 方法 。 在 图 20.6 中 ， 我 们 将 看 到 机 器 学 
习 算 法 如 何 成 功 完成 这 个 目标 。 

第 一 部 分 介绍 了 数学 和 机 带 学 习 中 的 基本 概念 ， 这 将 用 于 本 书 其 他 章节 中 。 至 
此 ， 我 们 已 经 做 好 了 研究 深度 学 习 的 准备 。 
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图 5.13: QMUL Multiview Face 数据 集中 的 训练 样本 (Gong et aL, 2000)， 其 中 的 物体 是 移动 
的 从 而 覆盖 对 应 两 个 旋转 角度 的 二 维 流 形 。 我 们 希望 学 习 算 法 能 够 发 现 并 且 理 出 这 些 流 形 坐 标 。 
图 20.6 提 供 了 这 样 一 个 示例 。 
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本 书 这 一 部 分 总 结 现代 深度 学 习 用 于 解决 实际 应 用 的 现状 。 

深度 学 习 有 着 悠久 的 历史 和 许多 愿景 。 数 种 提出 的 方法 尚未 完全 结 出 果实 。 数 
个 雄心 勃勃 的 目标 尚未 实现 。 这 些 较 不 发 达 的 深度 学 习 分 支 将 出 现在 本 书 的 最 后 部 
分 。 

这 一 部 分 仅 关注 那些 基本 上 已 在 工业 中 大 量 使 用 的 技术 方法 。 

现代 深度 学 习 为 监督 学 习 提供 了 一 个 强大 的 框架 。 通 过 添加 更 多 层 以 及 向 层 内 
添加 更 多 单元 ， 深 度 网 络 可 以 表示 复杂 性 不 断 增 加 的 函数 。 给 定 足够 大 的 模型 和 足 
够 大 的 标注 训练 数据 集 ， 我 们 可 以 通过 深度 学 习 将 输入 向 量 映射 到 输出 向 量 ， 完 成 
大 多 数 对 人 来 说 能 迅速 处 理 的 任务 。 其 他 任务 ， 比 如 不 能 被 描述 为 将 一 个 向 量 与 男 
一 个 相关 联 的 任务 ， 或 者 对 于 一 个 人 来 说 足够 困难 并 需要 时 间 思 考 和 反复 琢磨 才能 
完成 的 任务 ， 现 在 仍然 超出 了 深度 学 习 的 能 力 范围 。 

本 书 这 一 部 分 描述 参数 化 函数 近似 技术 的 核心 ， 几 乎 所 有 现代 实际 应 用 的 深度 
学 习 背 后 都 用 到 了 这 一 技术 。 首 先 ， 我 们 描述 用 于 表示 这 些 函 数 的 前 馈 深度 网 络 模 
型 。 接 着 ， 我 们 提出 正则 化 和 优化 这 种 模型 的 高 级 技术 。 将 这 些 模型 扩展 到 大 输入 
( 如 高 分 辨 率 图 像 或 长 时 间 序 列 ) 需要 专门 化 。 我 们 将 会 介绍 扩展 到 大 图 像 的 卷 积 区 
络 和 用 于 处 理 时 间 序 列 的 循环 神经 网 络 。 最 后 ， 我 们 提出 实用 方法 的 一 般 准 则 ， 有 
助 于 设计 、 构 建 和 配置 一 些 涉及 深度 学 习 的 应 用 ， 并 回顾 其 中 一 些 应 用 。 

这 些 章节 对 于 从 业者 来 说 是 最 重要 的 ， 也 就 是 现在 想 开始 实现 和 使 用 深度 学 
习 算法 解决 现实 问题 的 人 需要 阅读 这 些 章节 。 
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深度 前 馈 网 络 ( deep feedforward network ), 也 叫 作 前 馈 神经 网 络 (feedforward 
neural network ) 或 者 多 层 感 知 机 ( multilayer perceptron, MLP )， 是 典型 的 深度 学 
习 模 型 。 前 馈 网 络 的 目标 是 近似 某 个 函数 产 。 例 如 ， 对 于 分 类 器 , y = f*(z) 将 输入 
x 映射 到 一 个 类 别 y。 前 馈 网 络 定义 了 一 个 映射 y= f(x; 9)， 并 且 学 习 参 数 9 的 值 ， 
使 它 能 够 得 到 最 佳 的 函数 近似 。 

这 种 模型 被 称 为 前 向 (feedforward ) 的 ， 是 因为 信息 流 过 z 的 函数 ， 流 经 用 于 
定义 了 的 中 间 计 算 过 程 ， 最 终 到 达 输 出 y。 在 模型 的 输出 和 模型 本 身 之 间 没 有 反馈 
(feedback ) 连接 。 当 前 馈 神经 网 络 被 扩展 成 包含 反馈 连接 时 ， 它 们 被 称 为 循环 神经 
网 络 (recurrent neural network )， 在 第 十 章 介 绍 。 


前 馈 网 络 对 于 机 器 学 习 的 从 业者 是 极其 重要 的 。 它 们 是 许多 重要 商业 应 用 的 基 
础 。 例 如 ， 用 于 对 照片 中 的 对 象 进行 识别 的 卷 积 神经 网 络 就 是 一 种 专门 的 前 馈 网 络 。 
前 馈 网 络 是 通 往 循环 网 络 之 路 的 概念 基石 ， 后 者 在 自然 语言 的 许多 应 用 中 发 挥 着 巨 
大 作用 。 

前 馈 神 经 网 络 被 称 作 网 络 (network) 是 因为 它们 通常 用 许多 不 同 函 数 复合 
在 一 起 来 表示 。 该 模型 与 一 个 有 向 无 环 图 相关 联 ， 而 图 描述 了 了 涵 数 是 如 何 复 
合 在 一 起 的 。 例如， 我 们 有 三 个 函数 (OY, fO 和 fO 连接 在 一 个 链 上 以 形成 
f(z) = 3(f9(fD(z)))。 这 些 链 式 结构 是 神经 网 络 中 最 常用 的 结构 。 在 这 种 情况 
下 ，f 中 被 称 为 网 络 的 第 一 层 (first layer), fO 被 称 为 第 二 层 (second layer )， 以 
此 类 推 。 链 的 全 长 称 为 模型 的 深度 ( depth )。 正 是 因为 这 个 术语 才 出 现 了 “深度 学 
习 ” 这 个 名 字 。 前 馈 网 络 的 最 后 一 层 被 称 为 输出 层 (output layer )。 在 神经 网 络 训练 
的 过 程 中 ,我 们 让 f(x) 去 匹配 f*(a) 的 值 。 训 练 数据 为 我 们 提供 了 在 不 同 训 练 点 上 
取 值 的 、 含 有 噪声 的 f(a) 的 近似 实例 。 每 个 样本 z 都 伴随 着 一 个 标签 y & f (m). 
训练 样本 直接 指明 了 输出 层 在 每 一 点 zx 上 必须 做 什么 ; 它 必 须 产 生 一 个 接近 y 的 值 。 
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145 
ww ai bt. com DLE BO D DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
146 第 六 章 ”深度 前 馈 网 络 


但 是 训练 数据 并 没有 直接 指明 其 他 层 应 该 怎么 做 。 学 习 算法 必须 决定 如 何 使 用 这 些 
层 来 产生 想 要 的 输出 ， 但 是 训练 数据 并 没有 说 每 个 单独 的 层 应 该 做 什么 。 相 反 ， 学 
习 算 法 必须 决定 如 何 使 用 这 些 层 来 最 好 地 实现 f 的 近似 。 因 为 训练 数据 并 没有 给 出 
这 些 层 中 的 每 一 层 所 需 的 输出 ， 所 以 这 些 层 被 称 为 隐藏 层 (hidden layer )。 

最 后 ， 这 些 网 络 被 称 为 神经 网 络 是 因为 它们 或 多 或 少 地 受到 神经 科学 的 启 
发 。 网 络 中 的 每 个 隐藏 层 通常 都 是 向 量 值 的 。 这 些 隐 藏 层 的 维 数 决定 了 模型 的 宽度 
(width )。 向 量 的 每 个 元 素 都 可 以 被 视 为 起 到 类 似 一 个 神经 元 的 作用 。 除 了 将 层 想 
象 成 向 量 到 向 量 的 单个 函数 ， 我 们 也 可 以 把 层 想象 成 由 许多 并 行 操作 的 单元 (unit ) 
组 成 ， 每 个 单元 表示 一 个 向 量 到 标量 的 函数 。 每 个 单元 在 某 种 意义 上 类 似 一 个 神经 
元 , 它 接收 的 输入 来 源 于 许多 其 他 的 单元 , 并 计算 它 自 己 的 激活 值 。 使 用 多 层 向 量 值 
表示 的 想法 来 源 于 神经 科学 。 用 于 计算 这 些 表示 的 函数 fO (a) 的 选择 ， 也 或 多 或 少 
地 受到 神经 科学 观测 的 指引 ， 这 些 观测 是 关于 生物 神经 元 计算 功能 的 。 然 而 ， 现 代 
的 神经 网 络 研究 受到 更 多 的 是 来 自 许多 数学 和 工程 学 科 的 指引 ， 并 且 神经 网 络 的 目 
标 并 不 是 完美 地 给 大 脑 建 模 。 我 们 最 好 将 前 僻 神经 网 络 想 成 是 为 了 实现 统计 泛 化 而 
设计 出 的 函数 近似 机 ， 它 偶尔 从 我 们 了 解 的 大 脑 中 提取 灵感 ， 但 并 不 是 大 脑 功能 的 
模型 。 

一 种 理解 前 馈 网 络 的 方式 是 从 线性 模型 开始 ， 并 考虑 如 何 克 服 它 的 局 限 性 。 线 
性 异型， 例如 逻辑 回归 和 线性 回归 ， 是 非常 吸引 人 的 ， 因 为 无 论 是 通过 闭 解 形式 还 
是 使 用 凸 优化 ， 它 们 都 能 高 效 昌 可 靠 地 拟 合 。 线性 模型 也 有 明显 的 缺陷 ， 那 就 是 该 
模型 的 能 力 被 局 限 在 线性 函数 里 ， 所 以 它 无 法 理解 任何 两 个 输入 变量 间 的 相互 作用 。 

为 了 扩展 线性 模型 来 表示 z 的 非 线性 函数 ,我 们 可 以 不 把 线性 模型 用 于 = 本 身 ， 
而 是 用 在 一 个 变换 后 的 输入 %(z) 上 ， 这 里 o 是 一 个 非 线性 变换 。 同 样 ， 我 们 可 以 
使 用 第 5.7.2 节 中 描述 的 核 技巧 ， 来 得 到 一 个 基于 隐 含 地 使 用 映射 的 非 线性 学 习 算 
法 。 我们 可 以 认为 $ 提供 了 一 组 描述 x 的 特征 ， 或 者 认为 它 提供 了 z 的 一 个 新 的 表 
Zo 


















































剩 下 的 问题 就 是 如 何 选择 映射 %。 


1. 其 中 一 种 选择 是 使 用 一 个 通用 的 %， 例 如 无 限 维 的 %， 它 隐 含 地 用 在 基 
T RBF 核 的 核 机 器 上 。 如 果 %(z) 具有 足够 高 的 维 数 ， 我 们 总 是 有 足够 的 能 
来 拟 合 训练 集 ， 但 是 对 于 测试 集 的 泛 化 往往 不 佳 。 非 常 通用 的 特征 映射 通常 只 
基于 局 部 光滑 的 原则 ， 并 且 没 有 将 足够 的 先 验 信息 进行 编码 来 解决 高 级 问题 。 

2. 另 一 种 选择 是 手动 地 设计 %。 在 深度 学 习 出 现 以 前 ， 这 一 直 是 主流 的 方法 。 这 
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种 方法 对 于 每 个 单独 的 任务 都 需要 人 们 数 十 年 的 努力 ， 从 业者 各 自 擅 长 特定 的 
领域 ( 如 语音 识别 或 计算 机 视觉 )， 并 且 不 同 领域 之 间 很 难 迁 移 (transfer)。 


CD 


. 深度 学 习 的 策略 是 去 学 习 $B。 在 这 种 方法 中 ,我 们 有 一 个 模型 y = f(x; 0, w) = 
olz 0) wo 我 们 现在 有 两 种 参数 : 用 于 从 一 大 类 函数 中 学 习 少 的 参数 6， 以 及 
用 于 将 olx) 映射 到 所 需 的 输出 的 参数 w。 这 是 深度 前 馈 网 络 的 一 个 例子 ， 其 
中 $$ 定义 了 一 个 隐藏 层 。 这 是 三 种 方法 中 唯一 一 种 放弃 训练 问题 的 凸 性 的 方 
法 , 但 是 利 大 于 次 。 在 这 种 方法 中 ， 我 们 将 表示 参数 化 为 8(z; 0)， 并 且 使 用 优 
化 算法 来 寻找 9， 使 它 能 够 得 到 一 个 好 的 表示 。 如 果 我 们 想 要 的 话 ， 这 种 方法 
也 可 以 通过 使 它 变 得 高 度 通用 以 获得 第 一 种 方法 的 优点 一 一 我 们 只 需 使 用 一 个 
非常 广泛 的 函数 族 %(z 8)。 这 种 方法 也 可 以 获得 第 二 种 方法 的 优点 。 人 类 专家 
可 以 将 他 们 的 知识 编码 进 网 络 来 帮助 泛 化 ， 他 们 只 需要 设计 那些 他 们 期 望 能 够 
表现 优异 的 函数 族 %(z 6) 即 可 。 这 种 方法 的 优点 是 人 类 设计 者 只 需要 寻找 正 
确 的 函数 族 即 可 ， 而 不 需要 去 寻找 精确 的 函数 。 

















这 种 通过 学 习 特 征 来 改善 模型 的 一 般 化 原则 不 仅仅 适用 于 本 章 描 述 的 前 馈 神经 
网 络 。 它 是 深度 学 习 中 反复 出 现 的 主题 ,适用 于 全 书 描述 的 所 有 种 类 的 模型 。 前 馈 
神经 网 络 是 这 个 原则 的 应 用 ， 它 学 习 从 z 到 y 的 确定 性 映射 并 且 没 有 反馈 连接 。 后 
面 出 现 的 其 他 模型 会 把 这 些 原则 应 用 到 学 习 随 机 映射 、 学 习 带 有 反馈 的 函数 以 及 学 
习 单 个 向 量 的 概率 分 布 。 

本 章 我 们 先 从 前 馈 网 络 的 一 个 简单 例子 说 起 。 接 着 ,我 们 讨论 部 署 一 个 前 馈 网 
络 所 需 的 每 个 设计 决策 。 首先 , 训练 一 个 前 馈 网 络 至 少 需要 做 和 线性 模型 同样 多 的 设 
IRER: 选择 一 个 优化 模型 、 代 价 也 数 以 及 输出 单元 的 形式 。 我 们 先 回 顾 这 些 基 于 梯 
度 学 习 的 基本 知识 , 然后 去 面 对 那 些 只 出 现在 前 馈 网 络 中 的 设计 决策 。 前 馈 网 络 已 经 
引入 了 隐藏 层 的 概念 ， 这 需要 我 们 去 选择 用 于 计算 隐藏 层 值 的 激活 函数 ( activation 
function )。 我 们 还 必须 设计 网 络 的 结构 ， 包 括 网 络 应 该 包含 多 少 层 、 这 些 层 应 该 如 
何 连接 ， 以 及 每 一 层 包 含 多 少 单元 。 在 深度 神经 网 络 的 学 习 中 需要 计算 复杂 陶 数 的 
梯度 。 我 们 给 出 反 向 传播 ( back propagation ) 算法 和 它 的 现代 推广 ， 它 们 可 以 用 来 
高 效 地 计算 这 些 梯度 。 最 后 ,我 们 以 某 些 历史 观点 来 结束 这 一 童 。 
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6.1 实例 : 学习 XOR 


为 了 使 前 馈 网 络 的 想法 更 加 具体， 我 们 首先 从 一 个 可 以 完整 工作 的 前 馈 网 络 说 
起 。 这 个 例子 解决 一 个 非常 简单 的 任务 : 学 习 XOR 函数 。 

XOR 函数 (“ 异 或 ”逻辑 ) 是 两 个 二 进 制 值 zy 和 zs 的 运算 。 当 这 些 二 进 制 值 
中 恰好 有 一 个 为 1 时 ，XOR 函数 返回 值 为 1。 其 余 情 况 下 返回 值 为 0。XOR KAE 
供 了 我 们 想 要 学 习 的 目标 函数 y = f(z)。 我 们 的 模型 给 出 了 一 个 函数 y = f (o; 0) 
并 且 我 们 的 学 习 算 法 会 不 断 调 整 参数 9 来 使 得 f 尽 可 能 接近 f". 

在 这 个 简单 的 例子 中 ， 我 们 不 会 关心 统计 泛 化 。 我 们 希望 网 络 在 这 四 个 点 
X = ([0,0], [0,1], [1,0], (1, 1] 上 表现 正确 。 我 们 会 用 全 部 这 四 个 点 来 训练 我 们 
的 网 络 ， 唯 一 的 挑战 是 拟 合 训练 集 。 

我 们 可 以 把 这 个 问题 当 作 是 回归 问题 ， 并 使 用 均 方 误差 损失 函数 。 我 们 选择 这 
个 损失 函数 是 为 了 尽 可 能 简化 本 例 中 用 到 的 数学 。 在 应 用 领域 ， 对 于 二 进 制 数 据 建 
模 时 ，MSE 通 常 并 不 是 一 个 合适 的 损失 函数 。 更 加 合适 的 方法 将 在 第 6.2.2.2 节 中 讨 
论 。 


























评估 整个 训练 集 上 表现 的 MSE 损失 函数 为 
1 
J(8) = 15 (2) - f(s0)*. (6.1) 
ZEX 
我 们 现在 必须 要 选择 我 们 模型 f(a 6) 的 形式 。 假 设 我 们 选择 一 个 线性 模型 ，6 
包含 w 和 1 那么 我 们 的 模型 被 定义 成 


f(a; w,b) = x w- b. (6.2) 


我 们 可 以 使 用 正规 方程 关于 w b 最 小 化 J(0)， 来 得 到 一 个 闭 式 解 。 

解 正规 方程 以 后 , 我 们 得 到 w = 0 WR b= 。 线性 模型 仅仅 是 在 任意 一 点 都 输 
出 0.5。 为 什么 会 发 生 这 种 事 ? 图 6.1 演 示 了 线性 模型 为 什么 不 能 用 来 表示 XOR K 
数 。 解 决 这 个 问题 的 其 中 一 种 方法 是 使 用 一 个 模型 来 学 习 一 个 不 同 的 特征 空间 ， 在 
这 个 空间 上 线性 模型 能 够 表示 这 个 解 。 

具体 来 说 , 我 们 这 里 引入 一 个 非常 简单 的 前 馈 神 经 网 络 , 它 有 一 层 隐 藏 层 并 且 隐 
藏 层 中 包含 两 个 单元 。 见 图 6.2 中 对 该 模型 的 解释 。 这 个 前 馈 网 络 有 一 个 通过 函数 
f (a; W, e) 计算 得 到 的 隐藏 单元 的 向 量 ho 这 些 隐 藏 单元 的 值 随后 被 用 作 第 二 层 的 
输入 。 第 二 层 就 是 这 个 网 络 的 输出 层 。 输 出 层 仍然 只 是 一 个 线性 回归 模型 ， 只 不 过 
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Original a space Learned h space 
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0 1 0 1 2 
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图 6.1: 通过 学 习 一 个 表示 来 解决 KOR 问题 。 图 上 的 粗 体 数字 标明 了 学 得 的 函数 必须 在 每 个 点 输 
出 的 值 。( 左 ) 直接 应 用 于 原始 输入 的 线性 模型 不 能 实现 KOR 函数 。 当 zi = 0 时 ,模型 的 输出 必 
须 随 着 z 的 增 大 而 增 大 。 当 zi = 1 时 , 模型 的 输出 必须 随 着 zz 的 增 大 而 减 小 。 线 性 模型 必须 对 
c 使 用 固定 的 系数 w2。 因 此 ， 线 性 模型 不 能 使 用 zi 的 值 来 改变 z 的 系数 ， 从 而 不 能 解决 这 个 
问题 。( 右 ) 在 由 神经 网 络 提取 的 特征 表示 的 变换 空间 中 ， 线 性 模型 现在 可 以 解决 这 个 问题 了 。 在 
我 们 的 示例 解决 方案 中 ， 输 出 必须 为 1 的 两 个 点 折 鳃 到 了 特征 空间 中 的 单个 点 。 换 句 话说 ， 非 线 
性 特征 将 z= [1,0]” 和 z= [0,1]” 都 映射 到 了 特征 空间 中 的 单个 点 h= [1,0]'。 线 性 模型 现在 可 
以 将 函数 描述 为 hi 增 大 和 ha 减 小 。 在 该 示例 中 ,学 习 特 征 空 间 的 动机 仅仅 是 使 得 模型 的 能 力 更 
大 ,使 得 它 可 以 拟 合 训练 集 。 在 更 现实 的 应 用 中 ， 学 习 的 表示 也 可 以 帮助 模型 泛 化 。 








































































































现在 它 作用 于 h 而 不 是 z。 网 络 现 在 包含 链接 在 一 起 的 两 个 函数 : h= f? (a; W, c) 
Al y = f O(h; 2w,5)， 完 整 的 模型 是 f(x; W, c, w,b) = f(f(a)). 

f 应 该 是 哪 种 函数 ?线性 模型 到 目前 为 止 都 表现 不 错 ， 让 fO 也 是 线性 的 似 
乎 很 有 诱惑 力 。 不 幸 的 是 ， 如 果 fO) 是 线性 的 ， 那 么 前 馈 网 络 作为 一 个 整体 对 于 输 
入 仍然 是 线性 的 。 暂 时 忽略 截 距 项 , 假设 fU (x) = W'az3JfH. f? (h) = h' w, 那么 
f(z) =w W' xz。 我 们 可 以 将 这 个 函数 重新 表示 成 f(x) =x w 其 中 w = Ww. 

显然 , 我 们 必须 用 非 线 性 函数 来 描述 这 些 特征 。 大 多 数 神 经 网 络 通过 仿 射 变换 之 
后 紧 跟着 一 个 被 称 为 激活 函数 的 固定 非 线性 函数 来 实现 这 个 目标 ， 其 中 仿 射 变换 由 
学 得 的 参数 控制 。 我 们 这 里 使 用 这 种 策略 ， 定 义 h = g(W' ete), 其 中 W 是 线性 
变换 的 权重 矩阵 ，e 是 偏 置 。 此 前 ,为 了 描述 线性 回归 模型 ， 我们 使 用 权重 向 量 和 一 
个 标量 的 偏 置 参数 来 描述 从 输入 向 量 到 输出 标量 的 仿 射 变换 。 现 在 ， 因 为 我 们 描述 
的 是 向 量 z 到 向 量 n 的 仿 射 变换 ， 所 以 我 们 需要 一 整个 向 量 的 偏 置 参数 。 激 活 函数 
g 通常 选择 对 每 个 元 素 分 别 起 作用 的 函数 ， 有 hi = g(a! Wi 十 ci)。 在 现代 神经 网 络 
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CE om 
EQ 


图 6.2: 使 用 两 种 不 同样 式 绘制 的 前 馈 网 络 的 示例 。 具 体 来 说 ， 这 是 我 们 用 来 解决 XOR 问题 的 前 
馈 网 络 。 它 有 单个 隐藏 层 ,包含 两 个 单元 。( 左 ) 在 这 种 样式 中 , 我 们 将 每 个 单元 绘制 为 图 中 的 一 个 
节点 。 这 种 风格 是 清楚 而 明确 的 ， 但 对 于 比 这 个 例子 更 大 的 网 络 ， 它 可 能 会 消耗 太 多 的 空间 。( 右 / 
在 这 种 样式 中 ,我 们 将 表示 每 一 层 激活 的 整个 向 量 绘制 为 图 中 的 一 个 节点 。 这 种 样式 更 加 紧 竣 。 有 
时 ,我 们 对 图 中 的 边 使 用 参数 名 进行 注释 ,这 些 参 数 是 用 来 描述 两 层 之 间 的 关系 的 。 这 里 ,我们 用 
矩阵 W 描述 从 xj h 的 映射 ， 用 向 量 w 描述 从 h 9 y 的 映射 。 当 标记 这 种 图 时 ,我们 通常 省 
略 与 每 个 层 相关 联 的 截 距 参数 。 








































































































中 ,默认 的 推荐 是 使 用 由 激活 函数 g(z) = max(0, z) 定义 的 整流 线性 单元 (rectified 
linear unit ) 或 者 称 为 ReLU (Jarrett et al., 2009b; Nair and Hinton, 2010a; Glorot 
et al., 2011a)， 如 图 6.3 所 示 。 


我 们 现在 可 以 指明 我 们 的 整个 网 络 是 


f(a; W, c, w,b) = w' max(0, W' z+ c) +b. (6.3) 


我 们 现在 可 以 给 出 XOR 问题 的 一 个 解 。 今 
1 1 
W= 6.4 
bn T 
0 
= 6.5 
J os 


1 
w= 图 (6.6) 
以 及 b 一 0。 


我 们 现在 可 以 了 解 这 个 模型 如 何 处 理 一 批 输入 。 令 瑟 表 示 设 计 和 矩阵 ， 它 包含 二 
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max(0, z} 


g(z) 








图 6.3: 整流 线性 激活 函数 。 该 激活 函数 是 被 推荐 用 于 大 多 数 前 馈 神 经 网 络 的 默认 激活 函数 。 将 此 
函数 用 于 线性 变换 的 输出 将 产生 非 线 性 变换 。 然 而 ， 函 数 仍 然 非常 接近 线性 ， 在 这 种 意义 上 它 是 
具有 两 个 线性 部 分 的 分 段 线 性 函数 。 由 于 整流 线性 单元 几乎 是 线性 的 ， 因 此 它们 保留 了 许多 使 得 
线性 模型 易于 使 用 基于 梯度 的 方法 进行 优化 的 属性 。 它 们 还 保留 了 许多 使 得 线性 模型 能 够 泛 化 良 
好 的 属性 。 计 算 机 科学 的 一 个 公共 原则 是 ， 我 们 可 以 从 最 小 的 组 件 构建 复杂 的 系统 。 就 像 图 灵机 
的 内 存 只 需要 能 够 存储 0 或 1 的 状态 ,我 们 可 以 从 整流 线性 函数 构建 一 个 万 能 函数 近似 器 。 































































































进 制 输入 空间 中 全 部 的 四 个 点 ， 每 个 样本 占 一 行 ， 那么 矩阵 表示 为 : 


0 0 
x j (6.7) 
1 1 


神经 网 络 的 第 一 步 是 将 输入 矩阵 乘 以 第 一 层 的 权重 和 矩阵: 
0 | 

1 
: . (6.8) 


mÓ 


N e 
N 


N 
| 








然后 ， 我 们 加 上 偏 置 向 量 ce， 得 到 








0 -1 
1 0 

6.9 
du (6.9) 
2 1 
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在 这 个 空间 中 ， 所 有 的 样本 都 处 在 一 条 斜率 为 1 的 直线 上 。 当 我 们 沿 着 这 条 直线 移 
动 时 ， 输 出 需要 从 0 升 到 1， 然 后 再 降 回 0。 线 性 模型 不 能 实现 这 样 一 种 函数 。 为 了 
用 h 对 每 个 样本 求 值 ， 我 们 使 用 整流 线性 变换 : 


|. o| 
1 0 
m (6.10) 
2» 1 


这 个 变换 改变 了 样本 间 的 关系 。 它 们 不 再 处 于 同一 条 直线 上 了 。 如 图 6.1 所 示 ， 
它们 现在 处 在 一 个 可 以 用 线性 模型 解决 的 空间 上 。 


我 们 最 后 乘 以 一 个 权重 向 量 w: 
H 
qn (6.11) 


神经 网 络 对 这 一 批 次 中 的 每 个 样本 都 给 出 了 正确 的 结果 。 

在 这 个 例子 中 ， 我 们 简单 地 指定 了 解决 方案 ， 然 后 说 明 它 得 到 的 误差 为 零 。 在 
实际 情况 中 ， 可 能 会 有 数 十 亿 的 模型 参数 以 及 数 十 亿 的 训练 样本 ， 所 以 不 能 像 我 们 
这 里 做 的 那样 进行 简单 地 猜 解 。 与 之 相对 的 ， 基 于 梯度 的 优化 算法 可 以 找到 一 些 参 
数 使 得 产生 的 误差 非常 小 。 我 们 这 里 给 出 的 KOR 问题 的 解 处 在 损失 函数 的 全 局 最 
小 点 ， 所 以 梯度 下 降 算 法 可 以 收敛 到 这 一 点 。 梯度 下 降 算 法 还 可 以 找到 KOR 问题 一 
些 其 他 的 等 价 解 。 梯 度 下 降 算法 的 收敛 点 取决 于 参数 的 初始 值 。 在 实践 中 ,梯度 下 
降 通 常 不 会 找到 像 我 们 这 里 给 出 的 那 种 干净 的 、 容 易 理 解 的 、 整 数值 的 解 。 








6.2 ”基于 梯度 的 学 习 


设计 和 训练 神经 网 络 与 使 用 梯度 下 降 训 练 其 他 任何 机 器 学 习 模 型 并 没有 太 大 不 
同 。 在 第 5.10 节 中 ， 我 们 描述 了 如 何 通过 指定 一 个 优化 过 程 、 代 价 函 数 和 一 个 模型 
族 来 构建 一 个 机 顺 学 习 算 法 。 

我 们 到 目前 为 止 看 到 的 线性 模型 和 神经 网 络 的 最 大 区 别 ， 在 于 神经 网 络 的 非 线 
性 导致 大 多 数 我 们 感 兴趣 的 代价 函数 都 变 得 非 凸 。 这 意味 着 神经 网 络 的 训练 通常 使 
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用 和 迭代 的 、 基 于 梯度 的 优化 , 仅仅 使 得 代价 函数 达到 一 个 非常 小 的 值 ; 而 不 是 像 用 于 
训练 线性 回归 模型 的 线性 方程 求解 器 ， 或 者 用 于 训练 逻辑 回归 或 SVM 的 凸 优化 算 
法 那样 保证 全 局 收敛 。 凸 优化 从 任何 一 种 初始 参数 出 发 都 会 收敛 ( 理论 上 如 此 一 一 
在 实践 中 也 很 鲁 棒 但 可 能 会 遇 到 数值 问题 )。 用 于 非 凸 损失 函数 的 随机 梯度 下 降 没 有 
这 种 收敛 性 保证 ， 并 且 对 参数 的 初始 值 很 敏感 。 对 于 前 馈 神 经 网 络 ， 将 所 有 的 权重 
值 初始 化 为 小 随机 数 是 很 重要 的 。 偏 置 可 以 初始 化 为 零 或 者 小 的 正 值 。 这 种 用 于 训 
练 前 馈 神经 网 络 以 及 几乎 所 有 深度 模型 的 迭代 的 基于 梯度 的 优化 算法 会 在 第 第 八 章 
详细 介绍 ， 参 数 初 始 化 会 在 第 8.4 节 中 具体 说 明 。 就 目前 而 言 ， 只 需要 懂得 ， 训 练 算 
法 几乎 总 是 基于 使 用 梯度 来 使 得 代价 函数 下 降 的 各 种 方法 即 可 。 一 些 特别 的 算法 是 
对 梯度 下 降 思 想 的 改进 和 提纯 ( 在 第 4.3 节 中 介绍 ) 还 有 一 些 更 特别 的 ， 大 多 数 是 对 
随机 梯度 下 降 算 法 的 改进 (在 第 5.9 节 中 介绍 )。 

我 们 当然 也 可 以 用 梯度 下 降 来 训练 诸如 线性 回归 和 支持 向 量 机 之 类 的 模型 ， 并 
且 事 实 上 当 训 练 集 相当 大 时 这 是 很 常用 的 。 从 这 点 来 看 ， 训 练 神经 网 络 和 训练 其 他 
任何 模型 并 没有 太 大 区 别 。 计 算 梯度 对 于 神经 网 络 会 略微 复杂 一 些 ， 但 仍然 可 以 很 
高 效 而 精确 地 实现 。 第 6.5 节 将 会 介绍 如 何 用 反 向 传播 算法 以 及 它 的 现代 扩展 算法 来 
求 得 梯度 。 

和 其 他 的 机 器 学 习 模 型 一 样 ， 为 了 使 用 基于 梯度 的 学 习 方法 我 们 必须 选择 一 个 
代价 函数 ， 并 且 我 们 必须 选择 如 何 表示 模型 的 输出 。 现 在 ， 我 们 重 温 这 些 设计 上 的 
考虑 ， 并 且 特 别 强调 神经 网 络 的 情景 。 









































6.2.1 ”代价 函数 

深度 神经 网 络 设计 中 的 一 个 重要 方面 是 代价 函数 的 选择 。 幸 运 的 是 ， 神 经 网 络 
的 代价 函数 或 多 或 少 是 和 其 他 的 参数 模型 例如 线性 模型 的 代价 函数 相同 的 。 

在 大 多 数 情况 下 ， 我 们 的 参数 模型 定义 了 一 个 分 布 p(y | 2; 0) 并 且 我 们 简单 地 
使 用 最 大 似 然 原理 。 这 意味 着 我 们 使 用 训练 数据 和 模型 预测 间 的 交叉 依 作为 代价 天 
数 。 

有 时 ， 我 们 使 用 一 个 更 简单 的 方法 ， 不 是 预测 y 的 完整 概率 分 布 ， 而 是 仅仅 预 
测 在 给 定 zx 的 条 件 下 y 的 某 种 统计 量 。 某 些 专门 的 损失 函数 允许 我 们 来 训练 这 些 估 
计量 的 预测 器 。 

用 于 训练 神经 网 络 的 完整 的 代价 函数 ， 通 常 在 我 们 这 里 描述 的 基本 代价 函数 的 
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基础 上 结合 一 个 正则 项 。 我 们 已 经 在 第 5.2.2 节 中 看 到 正则 化 应 用 到 线性 模型 中 的 一 
些 简单 的 例子 。 用 于 线性 模型 的 权重 衰减 方法 也 直接 适用 于 深度 神经 网 络 ， 而 且 是 
最 流行 的 正则 化 策略 之 一 。 用 于 神经 网 络 的 更 高 级 的 正则 化 策略 将 在 第 七 章 中 讨论 。 





6.2.1.1 ”使 用 最 大 似 然 学 习 条 件 分 布 


大 多 数 现 代 的 神经 网 络 使 用 最 大 似 然 来 训练 。 这 意味 着 代价 函数 就 是 负 的 对 数 
似 然 ， 它 与 训练 数据 和 模型 分 布 间 的 交叉 人 等 价 。 这 个 代价 函数 表示 为 


J(0) = —Ex y..5.... 108 pmoda(Y | x). (6.12) 














代价 函数 的 具体 形式 随 着 模型 而 改变 ， 取 决 于 logpaoaa 的 具体 形式 。 上 述 方程 
的 展开 形式 通常 会 有 一 些 项 不 依赖 于 模型 的 参数 ,我 们 可 以 舍 去 。 例 如 ， 正 如 我 们 
在 第 5.1.1 节 中 看 到 的 ， 如 果 pmaoaa(y | 2) = N (y; f(z;0), 了， 那么 我 们 恢复 均 方 误 
差 代 价 ， 











J(0) = Is, y lu f O)|]? + const; (6.13) 

至 少 系数 3 MARTA 9。 舍弃 的 常数 是 基于 高 斯 分 布 的 方差 ， 在 这 种 情况 
下 我 们 选择 不 把 它 参 数 化 。 之 前 ， 我 们 看 到 了 对 输出 分 布 的 最 大 似 然 估计 和 对 线性 
模型 均 方 误差 的 最 小 化 之 间 的 等 价 性 ,但 事实 上 ， 这 种 等 价 性 并 不 要 求 f(2;0) 用 于 
预测 高 斯 分 布 的 均值 。 

使 用 最 大 似 然 来 导出 代价 函数 的 方法 的 一 个 优势 是 ， 它 减轻 了 为 每 个 模型 设计 
代价 函数 的 负担 。 明 确 一 个 模型 p(y | x) 则 自动 地 确定 了 一 个 代价 函数 log p(y | 四 。 

贯穿 神经 网 络 设 计 的 一 个 反复 出 现 的 主题 是 代价 函数 的 梯度 必须 足够 的 大 和 有 具 
有 足够 的 预测 性 ， 来 为 学 习 算 法 提供 一 个 好 的 指引 。 饱 和 ( 变 得 非常 平 ) 的 函数 破 
坏 了 这 一 日 标 ， 因 为 它们 把 梯度 变 得 非常 小 。 这 在 很 多 情况 下 都 会 发 生 ， 因 为 用 于 
产生 隐藏 单元 或 者 输出 单元 的 输出 的 激活 函数 会 饱和 。 负 的 对 数 似 然 帮助 我 们 在 很 
多 模型 中 避免 这 个 问题 。 很 多 输出 单元 都 会 包含 一 个 指数 函数 ， 这 在 它 的 变量 取 绝 
对 值 非常 大 的 负 值 时 会 造成 饱和 。 负 对 数 似 然 代价 函数 中 的 对 数 函 数 消 除了 某 些 输 
出 单元 中 的 指数 效果 。 我 们 将 会 在 第 6.2.2 节 中 讨论 代价 函数 和 输出 单元 的 选择 间 的 
相互 作用 。 

用 于 实现 最 大 似 然 估计 的 交叉 炉 代 价 函 数 有 一 个 不 同 寻 常 的 特性 ， 那 就 是 当 它 
被 应 用 于 实践 中 经 常 遇 到 的 模型 时 ， 它 通常 没有 最 小 值 。 对 于 离散 型 输出 变量 ， 
多 数 模 型 以 一 种 特 丈 的 形式 来 参数 化 ， 即 它们 不 能 表示 概率 零 和 一 ， 但 是 可 以 无 限 





ww ai bt. com 1 D BL BL B B 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
62 基于 梯度 的 学 习 155 








接近 。 逮 辑 回归 是 其 中 一 个 例子 。 对 于 实 值 的 输出 变量 ， 如 果 模 型 可 以 控制 输出 分 
布 的 密度 〈 例如， 通过 学 习 高 斯 输出 分 布 的 方差 参数 )， 那 么 它 可 能 对 正确 的 训练 集 
输出 赋予 极其 高 的 密度 ， 这 将 导致 交叉 焙 趋 向 负 无 穷 。 第 七 章 中 描述 的 正则 化 技术 
提供 了 一 些 不 同 的 方法 来 修正 学 习 问 题 ， 使 得 模型 不 会 通过 这 种 方式 来 获得 无 限制 
的 收益 。 














6.2.1.2 ”学 习 条 件 统计 量 


有 时 我 们 并 不 是 想 学 习 一 个 完整 的 概率 分 布 p(y | xz; 9)， 而 仅仅 是 想 学 习 在 给 定 
Zz 时 y 的 某 个 条 件 统计 量 。 

例如 ， 我 们 可 能 有 一 个 预测 器 f(x; 9)， 我 们 想 用 它 来 预测 y 的 均值 。 如 果 我 
们 使 用 一 个 足够 强大 的 神经 网 络 ， 我 们 可 以 认为 这 个 神经 网 络 能 够 表示 一 大 类 也 
数 中 的 任何 一 个 孔 数 f， 这 个 类 仅仅 被 一 些 特征 所 限制 ， 例 如 连续 性 和 有 界 ， 而 不 
是 具有 特殊 的 参数 形式 。 从 这 个 角度 来 看 ， 我 们 可 以 把 代价 函数 看 作 是 一 个 泛 函 
(functional) 而 不 仪 仅 是 一 个 函数 。 泛 函 是 函数 到 实数 的 映射 。 我 们 因此 可 以 将 学 习 
看 作 是 选择 一 个 函数 而 不 仅仅 是 选择 一 组 参数 。 我 们 可 以 设计 代价 泛 函 在 我 们 想 要 
的 某 些 特殊 函数 处 取得 最 小 值 。 例 如 , 我 们 可 以 设计 一 个 代价 泛 函 , 使 它 的 最 小 值 处 
于 一 个 特殊 的 函数 上 ， 这 个 函数 将 m 映射 到 给 定 x y PER. ROR MEG 
问题 需要 用 到 变 分 法 (calculus of variations ) 这 个 数学 工具 ， 我 们 将 在 第 19.4.2 节 
中 讨论 。 理 解 变 分 法 对 于 理解 本 章 的 内 容 不 是 必要 的 。 目 前 ， 只 需要 知道 变 分 法 可 
以 被 用 来 导出 下 面 的 两 个 结 

我 们 使 用 变 分 法 导出 的 第 一 个 结果 是 解 优 化 问题 


























F= poe Ex.y~pastallY — f(D (6.14) 


得 到 








f° (x) = Ey. passa (ula) [y]. (6.15) 
要 求 这 个 函数 处 在 我 们 要 优化 的 类 里 。 换 名 话说， 如 果 我 们 能 够 用 无 穷 多 的 、 来 源 
于 真实 的 数据 生成 分 布 的 样本 进行 训练 ， 最 小 化 均 方 误差 代价 函数 将 得 到 一 个 函数 ， 
它 可 以 用 来 对 每 个 x 的 值 预测 出 y 的 均值 。 
不 同 的 代价 函数 给 出 不 同 的 统计 量 。 第 二 个 使 用 变 分 法 得 到 的 结果 是 














f= wee Ex.y~paatal|Y — f(2)||1 (6.16) 
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将 得 到 一 个 函数 可 以 对 每 个 z 预测 y 取 值 的 中 位 数 ， 只 要 这 个 函数 在 我 们 要 优化 的 
函数 族 里 。 这 个 代价 函数 通常 被 称 为 平均 绝对 误差 ( mean absolute error )。 

可 惜 的 是 ， 均 方 误差 和 平均 绝对 误差 在 使 用 基于 梯度 的 优化 方法 时 往往 成 效 不 
佳 。 一 些 饱和 的 输出 单元 当 结合 这 些 代 价 函 数 时 会 产生 非常 小 的 梯度 。 这 就 是 为 什 
么 交叉 炉 代价 函数 比 均 方 误 差 或 者 平均 绝对 误差 更 受 欢迎 的 原因 之 一 了 ， 即 使 是 在 
没 必 要 估计 整个 p(y | x) 分 布 时 。 


6.2.2 ”输出 单元 

代价 函数 的 选择 与 输出 单元 的 选择 紧密 相关 。 大 多 数 时 候 ， 我 们 简单 地 使 用 数 
Ja tk RUBER A) A RIRs SCA. efi un dern aT Be RE T ac CSS PRI Xe 

任何 可 用 作 输 出 的 神经 网 络 单元 ， 也 可 以 被 用 作 隐 藏 单 元 。 这 里 ， 我 们 着 重 讨 
论 将 这 些 单 元 用 作 模 型 输出 时 的 情况 ， 不 过 原则 上 它们 也 可 以 在 内 部 使 用 。 我 们 将 
在 第 6.3 节 中 重 温 这 些 单元 ， 并 且 给 出 当 它们 被 用 作 隐 藏 单元 时 一 些 额外 的 细节 。 

在 本 节 中 ， 我 们 假设 前 馈 网 络 提供 了 一 组 定义 为 h= f(z;9) 的 隐藏 特征 。 输 出 
层 的 作用 是 随后 对 这 些 特征 进行 一 些 额外 的 变换 来 完成 整个 网 络 必 须 完 成 的 任务 。 


6.2.2.1 ”用 于 高 斯 输出 分 布 的 线性 单元 

一 种 简单 的 输出 单元 是 基于 仿 射 变换 的 输出 单元 ， 仿 射 变换 不 具有 非 线性 。 这 
些 单元 往往 被 直接 称 为 线性 单元 。 

给 定 特征 h, 线性 输出 单元 层 产 生 一 个 向 量 负 = W h+ b. 

线性 输出 层 经 党 被 用 来 产生 条 件 高 斯 分 布 的 均值 : 

Ply | £) = N (y: d D). (6.17) 

最 大 化 其 对 数 似 然 此 时 等 价 于 最 小 化 均 方 误差 。 

最 大 似 然 框架 也 使 得 学 习 高 斯 分 布 的 协 方差 矩阵 更 加 容易 ， 或 更 容易 地 使 高 斯 
分 布 的 协 方差 矩阵 作为 输入 的 函数 。 然 而 ， 对 于 所 有 输入 ， 协 方差 矩阵 都 必须 被 限 
定 成 一 个 正定 矩阵 。 线 性 输出 层 很 难 满足 这 种 限定 ， 所 以 通常 使 用 其 他 的 输出 单元 
来 对 协 方差 参数 化 。 对 协 方差 建 模 的 方法 将 在 第 6.2.2.4 节 中 简要 介绍 。 

因为 线性 模型 不 会 饱和 ， 所 以 它们 易于 采用 基于 梯度 的 优化 算法 ， 其 至 可 以 使 
用 其 他 多 种 优化 算法 。 
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6.2.2.2 FAF Bernoulli 输出 分 布 的 sigmoid 单元 


许多 任务 需要 预测 二 值 型 变量 y 的 值 。 具 有 两 个 类 的 分 类 问题 可 以 归结 为 这 种 
形式 。 
此 时 最 大 似 然 的 方法 是 定义 y 在 x 条件 下 的 Bernoulli 分 布 。 


Bernoulli 分 布 仅 需 单个 参数 来 定义 。 神 经 网 络 只 需要 预测 P(y = 1 | x) 即 可 。 
为 了 使 这 个 数 是 有 效 的 概率 ， 它 必须 处 在 区 间 [0,1] Po 


为 满足 该 约束 条 件 需 要 一 些 细致 的 设计 工作 。 假 设 我 们 打算 使 用 线性 单元 ， 并 
且 通 过 阔 值 来 限制 它 成 为 一 个 有 效 的 概率 : 


P(y-1 


az) = max (0, min(1, w' h + b) ) . (6.18) 


这 的 确定 义 了 一 个 有 效 的 条 件 概 率 分 布 ， 但 我 们 无 法 使 用 梯度 下 降 来 高 效 地 训练 它 。 
wih + b 处 于 单位 区 间 外 时 ， 模 型 的 输出 对 其 参数 的 梯度 都 将 为 0。 梯 度 为 0 通 
常 是 有 问题 的 ， 因 为 学 习 算 法 对 于 如 何 改善 相应 的 参数 不 再 具有 指导 意义 。 

相反 ， 最 好 是 使 用 一 种 新 的 方法 来 保证 无 论 何 时 模型 给 出 了 错误 的 答案 时 ， 总 
能 有 一 个 较 大 的 梯度 。 这 种 方法 是 基于 使 用 sigmoid 输出 单元 结合 最 大 似 然 来 实现 
的 。 

sigmoid 输出 单元 定义 为 





jg =o (w'h+b), (6.19) 


这 里 o FEB 3.10 节 中 介绍 的 logistic sigmoid 函数 。 

我 们 可 以 认为 sigmoid 输出 单元 具有 两 个 部 分 。 首 先 ， 它 使 用 一 个 线性 层 来 计 
算 z—wh-cb. a, EEA sigmoid 激活 函数 将 z 转化 成 概率 。 

我 们 暂时 忽略 对 于 z 的 依赖 性 ， 只 讨论 如 何 用 2 的 值 来 定义 y 的 概率 分 布 。 
sigmoid 可 以 通过 构造 一 个 非 归 一 化 (和 不 为 1) 的 概率 分 布 Py) 来 得 到 。 我 们 可 
以 随后 除 以 一 个 合适 的 常数 来 得 到 有 效 的 概率 分 布 。 如 果 我 们 假定 非 归 一 化 的 对 数 
概率 对 y 和 z 是 线性 的 ， 可 以 对 它 取 指 数 来 得 到 非 归 一 化 的 概率 。 我 们 然后 对 它 归 
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一 化 ， 可 以 发 现 这 服从 Bernoulli 分 布 ， 该 分 布 受 z 的 sigmoid 变换 控制 ; 





log P(y) = yz, (6.20) 
P(y) = exp(y2), (6.21) 

_ e9xp(yz) — 
P(y) = NE (6.22) 
P(y) = o((2y — 1)2). (6.23) 


基于 指数 和 归 一 化 的 概率 分 布 在 统计 建 模 的 文献 中 很 常见 。 用 于 定义 这 种 二 值 型 变 
量 分 布 的 变量 z 被 称 为 分 对 数 (logit )。 

这 种 在 对 数 空间 里 预测 概率 的 方法 可 以 很 自然 地 使 用 最 大 似 然 学 习 。 因 为 用 于 
最 大 似 然 的 代价 函数 是 — log P(y| xz)， 代 价 函数 中 的 log 抵消 了 sigmoid 中 的 exp. 
如 果 没 有 这 个 效果 ，sigmoid 的 饱和 性 会 阻止 基于 梯度 的 学 习 做 出 好 的 改进 。 我 们 使 
用 最 大 似 然 来 学 习 一 个 由 sigmoid 参数 化 的 Bernoulli 分 布 ， 它 的 损失 函数 为 





J(80) = — log Ply | z) (6.24) 
= — log a((2y — 1)z) (6.25) 
= ¢((1— 24)2). (6.26) 


这 个 推导 使 用 了 第 3.10 节 中 的 一 些 性 质 。 通 过 将 损失 函数 写成 softplus 函数 的 
形式 ， 我 们 可 以 看 到 它 仅 仅 在 (1 一 2y)z 取 绝 对 值 非常 大 的 负 值 时 才 会 饱和 。 因 此 饮 
和 只 会 出 现在 模型 已 经 得 到 正确 答案 时 一 一 当 y = 1 H z 取 非 常 大 的 正 值 时 ,或 者 
y —0 H z 取 非 常 小 的 负 值 时 。 当 z 的 符号 错误 时 ，softplus 函数 的 变量 (1 一 2y)z 
可 以 简化 为 |z|。 当 |z| 变 得 很 大 并 且 > 的 符号 错误 时 ，softplus 函数 渐 近 地 趋向 于 它 
的 变量 |z|。 对 z 求 导 则 渐 近 地 趋向 于 sign(z)， 所 以 ,对 于 极限 情况 下 极度 不 正确 的 
z, softplus 函数 完全 不 会 收缩 梯度 。 这 个 性 质 很 8 用 ， 因 为 它 意 味 着 基于 梯度 的 学 
习 可 以 很 快 地 改正 错误 的 zo 

当 我 们 使 用 其 他 的 损失 函数 ， 例 如 均 方 误差 之 类 的 ， 损 失 函 数 会 在 o(z) 饱和 时 
饱和 。sigmoid 激活 函数 在 z 取 非 常 小 的 负 值 时 会 饱和 到 0， 当 > 取 非 常 大 的 正 值 时 
会 饱和 到 1。 这 种 情况 一 旦 发 生 ， 梯 度 会 变 得 非常 小 以 至 于 不 能 用 来 学 习 ， 无论 此 时 
模型 给 出 的 是 正确 还 是 错误 的 答案 。 因 此 ， 最 大 似 然 几乎 总 是 训练 sigmoid 输出 单 
元 的 优选 方法 。 

理论 上 ，sigmoid 的 对 数 总 是 确定 和 有 限 的 ， 因 为 sigmoid 的 返回 值 总 是 被 限制 
在 开 区 间 (0,1) 上 ， 而 不 是 使 用 整个 闭 区 间 [0, 1] 的 有 效 概率 。 在 软件 实现 时 ， 为 了 














wwaibbt.com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
62 基于 梯度 的 学 习 159 


避免 数值 问题 ， 最 好 将 负 的 对 数 似 然 写 作 z 的 函数 ， 而 不 是 $= o(z) 的 函数 。 如 
果 sigmoid 函数 下 溢 到 零 ， 那 么 之 后 对 少 取 对 数 会 得 到 负 无 穷 。 


6.2.2.3 AF Multinoulli 输出 分 布 的 softmax 单元 


任何 时 候 当 我 们 想 要 表示 一 个 具有 n 个 可 能 取 值 的 离散 型 随机 变量 的 分 布 时 ， 
我 们 都 可 以 使 用 softmax 函数 。 它 可 以 看 作 是 sigmoid 函数 的 扩展 ， 其 中 sigmoid FR 
数 用 来 表示 二 值 型 变量 的 分 布 。 
softmax 函数 最 常用 作 分 类 器 的 输出 ， 来 表示 个 不 同类 上 的 概率 分 布 。 比 较 
少见 的 是 ，softmax 函数 可 以 在 模型 内 部 使 用 , 例如 如 果 我 们 想 要 在 某 个 内 部 变量 的 
n 个 不 同 选 项 中 进行 选择 。 
在 二 值 型 变量 的 情况 下 ， 我 们 希望 计算 一 个 单独 的 数 
ĝ = P(y=1| 2). (6.27) 
因为 这 个 数 需要 处 在 0 和 1 之 间 ， 并 且 我 们 想 要 让 这 个 数 的 对 数 可 以 很 好 地 用 于 对 
数 似 然 的 基于 梯度 的 优化 ,我们 选择 去 预测 另外 一 个 数 z = log P(y = 1 | xz)。 对 其 
旨 数 化 和 归 一 化 ， 我 们 就 得 到 了 一 个 由 sigmoid 函数 控制 的 Bernoulli 分 布 。 
为 了 推广 到 具有 n 个 值 的 离散 型 变量 的 情况 ， 我们 现在 需要 创造 一 个 向 量 g. 
它 的 每 个 元 素 是 ji = Ply = i| xz)。 我 们 不 仅 要 求 每 个 9; 元 素 介 于 0 和 1 RI, 还 
要 使 得 整个 向 量 的 和 为 1， 使 得 它 表示 一 个 有 效 的 概率 分 布 。 用 于 Bernoulli 分 布 的 
方法 同样 可 以 推广 到 Multinoulli 分 布 。 首先， 线性 层 预测 了 未 归 一 化 的 对 数 概率 : 
z= Wh-b, (6.28) 


其 中 z = log P(y =i| 2). softmax PRIUAJE ATW z 指数 化 和 归 一 化 来 获得 需要 
的 Jo 最 终 ，softmax 函数 的 形式 为 











|. exp(z;) 
softmax(z); 一 E, exp(z) (6.29) 
All logistic sigmoid 一 样 ， 当 使 用 最 大 化 对 数 似 然 训练 softmax 来 输出 目标 值 y 
时 ， 使 用 指数 函数 工作 地 非常 好 。 这 种 情况 下 ， 我们 想 要 最 大 化 log Ply = i; z) = 
logsoftmax(z);. Tf softmax 定义 成 指数 的 形式 是 很 自然 的 因为 对 数 似 然 中 的 log 可 
以 抵消 softmax 中 的 exp: 


logsoftmax(z); = z; — log V exp(z;). (6.30) 
j 
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XX (6.30) 中 的 第 一 项 表示 输入 2; 总 是 对 代价 函数 有 直接 的 贡献 。 因 为 这 一 项 不 
会 饱和 , 所 以 即使 z; 对 式 (6.30) 的 第 二 项 的 贡献 很 小 , 学 习 依 然 可 以 进行 。 当 最 大 化 
对 数 似 然 时 , 第 一 项 鼓励 z 被 推 高 , 而 第 二 项 则 鼓励 所 有 的 zx 被 压低 。 为 了 对 第 二 项 
log >) exp(z;) 有 一 个 直观 的 理解 , 注意 到 这 一 项 可 以 大 致 近似 为 max; zj。 这 种 近似 
是 基于 对 任何 明显 小 于 max; z; 的 ze, exp(zr) 都 是 不 重要 的 。 我 们 能 从 这 种 近似 中 
得 到 的 直觉 是 , 负 对 数 似 然 代价 函数 总 是 强烈 地 惩罚 最 活跃 的 不 正确 预测 。 如 果 正 确 
答案 已 经 具有 了 softmax 的 最 大 输入 ， 那 么 —z; 项 和 log M exp(2;) zz max; 2; = zi 
项 将 大 致 抵消 。 这 个 样本 对 于 整体 训练 代价 贡献 很 小 ， 这 个 代价 主要 由 其 他 未 被 正 
确 分 类 的 样本 产生 。 

到 目前 为 止 我 们 只 讨论 了 一 个 例子 。 总 体 来 说 ， 未 正则 化 的 最 大 似 然 会 驱动 模 
型 去 学 习 一 些 参 数 ， 而 这 些 参数 会 驱动 softmax 函数 来 预测 在 训练 集中 观察 到 的 每 
个 结果 的 比率 : 





2 L@Oxiald=2 
y» LoS 
因为 最 大 似 然 是 一 致 的 估计 量 ， 所 以 只 要 模型 族 能 够 表示 训练 的 分 布 ， 这 就 能 保证 
发 生 。 在 实践 中 ， 有 限 的 模型 能 力 和 不 完美 的 优化 将 意味 着 模型 只 能 近似 这 些 比 率 。 

除了 对 数 似 然 之 外 的 许多 目标 函数 对 softmax 国 数 不 起 作用 。 有 具体 来 说 ， 那 些 
不 使 用 对 数 来 抵消 softmax 中 的 指数 的 目标 函数 ， 当 指数 函数 的 变量 取 非 常 小 的 负 
值 时 会 造成 梯度 消失 ,从 而 无 法 学 习 。 特别 是 , 平方 误差 对 于 softmax 单元 来 说 是 一 
个 很 差 的 损失 函数 ， 即 使 模型 做 出 高 度 可 信和 的 不 正确 预测 ， 也 不 能 训练 模型 改变 其 
输出 (Bridle, 1990)。 要 理解 为 什么 这 些 损 失 水 数 可 能 失败 ， 我 们 需要 检查 softmax 
PROBUS Ep 

像 sigmoid 一 样 ，softmax 激活 函数 可 能 会 饱和 。sigmoid 函数 具有 单个 输出 ， 
当 它 的 输入 极端 负 或 者 极端 正 时 会 饱和 。 对 于 softmax 的 情况 ， 它 有 多 个 输出 值 。 
当 输 入 值 之 间 的 差异 变 得 极端 时 ， 这 些 输出 值 可 能 饱和 。 当 softmax 饱和 时 ， 基 于 
softmax 的 许多 代价 函数 也 饱和 ， 除 非 它 们 能 够 转化 饱和 的 激活 函数 。 

为 了 说 明 softmax 函数 对 于 输入 之 间 差 异 的 响应 ， 观 察 到 当 对 所 有 的 输入 都 加 
上 一 个 相同 常数 时 softmax 的 输出 不 变 : 





softmax(z(a; 0)); e (6.31) 








softmax(z) = softmax(z + c). (6.32) 
使 用 这 个 性 质 ， 我 们 可 以 导出 一 个 数值 方法 稳定 的 softmax 函数 的 变 体 : 


softmax(z) — softmax(z — max z;). (6.33) 
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变换 后 的 形式 允许 我 们 在 对 softmax 函数 求 值 时 只 有 很 小 的 数值 误差 ， 即 使 是 当 > 
包含 极 正 或 者 极 负 的 数 时 。 观 察 softmax 数值 稳定 的 变 体 ， 可 以 看 到 softmax PR 
由 它 的 变量 偏离 max; z; 的 量 来 驱动 。 

当 其 中 一 个 输入 是 最 大 (z; = max zi) IFA 远大 于 其 他 的 输入 时 ， 相 应 的 
输出 softmax(z); 会 饱和 到 1。 当 z; 不 是 最 大 值 并 且 最 大 值 非常 大 时 ， 相 应 的 输出 
softmax(z); 也 会 饱和 到 0。 这 是 sigmoid 单元 饱和 方式 的 一 般 化 ， 并 且 如 果 损 失 函 
数 不 被 设计 成 对 其 进行 补偿 ， 那 么 也 会 造成 类 似 的 学 习 困 难 。 

softmax 因数 的 变量 z 可 以 通过 两 种 方式 产生 。 最 常见 的 是 简单 地 使 神经 网 络 
较 早 的 层 输出 z 的 每 个 元 素 ， 就 像 先前 描述 的 使 用 线性 层 z OW'h-- b. BRE 
观 ， 但 这 种 方法 是 对 分 布 的 过 度 参 数 化 。n 个 输出 总 和 必须 为 1 的 约束 意味 着 只 有 
n 一 1 个 参数 是 必要 的 ; 第 n 个 概率 值 可 以 通过 1 减 去 前 面 n 一 1 个 概率 来 获得 。 
此 ， 我 们 可 以 强制 要 求 z 的 一 个 元 素 是 固定 的 。 例 如 ， 我 们 可 以 要 求 zn = 0。 事 实 
上 ， 这 正 是 sigmoid 单元 所 做 的 。 定 义 Ply =1 | x) = olz) 等 价 于 用 二 维 的 z 以 及 
zı =0 KEM P(y —1| x) =softmax(z)). Hite n 一 1 个 变量 还 是 n 个 变量 的 方 
法 ， 都 描述 了 相同 的 概率 分 布 ， 但 会 产生 不 同 的 学 习 机 制 。 在 实践 中 ， 无 论 是 过 度 
参数 化 的 版 本 还 是 限制 的 版 本 都 很 少 有 差别 ， 并 且 实 现 过 度 参数 化 的 版 本 更 为 简单 。 

从 神经 科学 的 角度 看 ， 有 趣 的 是 认为 softmax 是 一 种 在 参与 其 中 的 单元 之 间 形 
成 竞争 的 方式 : softmax 输出 总 是 和 为 1， 所 以 一 个 单元 的 值 增加 必然 对 应 着 其 他 单 
元 值 的 减少 。 这 与 被 认为 存在 于 皮质 中 相 邻 神经 元 间 的 侧 抑制 类 似 。 在 极端 情况 下 
(HEKK a; 和 其 他 的 在 幅度 上 差异 很 大 时 )， 它 变 成 了 赢 者 通 吃 ( winner-take-all ) 
的 形式 〈 其 中 一 个 输出 接近 1， 其 他 的 接近 0 )。 

“softmax” 的 名 称 可 能 会 让 人 产生 困惑 。 这 个 函数 更 接近 于 argmax PRACT AE 
max AŽ. “soft” AARET softmax 国 数 是 连续 可 微 的 “argmax” 国 数 的 结 
果 表 示 为 一 个 one-hot 癌 量 ( 只 有 一 个 元 素 为 1， 其 余 元 素 都 为 0 的 向 量 )， 不 是 连续 
和 可 微 的 。softmax 函数 因此 提供 了 argmax 的 “软化 ”版 本 。max 函数 相应 的 软化 
版 本 是 softmax(z)'z。 可 能 最 好 是 把 softmax 函数 称 为 “softargmax”， 但 当前 名 称 
已 经 是 一 个 根深 蒂 固 的 习惯 了 。 












































6.2.2.4 ”其 他 的 输出 类 型 


之 前 描述 的 线性 、sigmoid 和 softmax 输出 单元 是 最 常见 的 。 神 经 网 络 可 以 推广 
到 我 们 希望 的 几乎 任何 种 类 的 输出 层 。 最 大 似 然 原则 给 如 何 为 几乎 任何 种 类 的 输出 
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层 设 计 一 个 好 的 代价 函数 提供 了 指导 。 

一 般 的 ， 如 果 我 们 定义 了 一 个 条 件 分 布 p(y| z;0)， 最 大 似 然 原 则 建议 我 们 使 用 
—log p(y | x; 0) 作为 代价 函数 。 

一 般 来 说 ， 我 们 可 以 认为 神经 网 络 表示 函数 f(x; 0)。 这 个 函数 的 输出 不 是 对 y 
值 的 直接 预测 。 相 反 ，f(z; 0) = c 提供 了 y 分 布 的 参数 。 我 们 的 损失 明 数 就 可 以 表 
示 成 — log p(y; w(£))- 

例如 ， 我 们 想 要 学 习 在 给 定 x 时 ，y 的 条 件 高 斯 分 布 的 方差 。 简 单 情况 下 ， 方 
差 o? 是 一 个 常数 ， 此 时 有 一 个 解析 表达 式 ， 这 是 因为 方差 的 最 大 似 然 估计 量 仅仅 是 
观测 值 y 与 它们 的 期 望 值 的 差 值 的 平方 平均 。 一 种 计算 上 代价 更 加 高 但 是 不 需要 写 
特殊 情况 代码 的 方法 是 简单 地 将 方差 作为 分 布 p(y | x) 的 其 中 一 个 属性 ， 这 个 分 布 
由 w = f(a; 9) 控制 。 负 对 数 似 然 — log p(y; wla) 将 为 代价 函数 提供 一 个 必要 的 合 
适 项 来 使 我 们 的 优化 过 程 可 以 逐渐 地 学 到 方差 。 在 标准 差 不 依 赖 于 输入 的 简单 情况 
下 ， 我 们 可 以 在 网 络 中 创建 一 个 直接 复制 到 w 中 的 新 参数 。 这 个 新 参数 可 以 是 o 本 
身 ， 或 者 可 以 是 表示 o? 的 参数 v, 或 者 可 以 是 表示 点 的 参数 8， 取决 于 我 们 怎样 
对 分 布 参数 化 。 我 们 可 能 希望 模型 对 不 同 的 x 值 预测 出 y 不 同 的 方差 。 这 被 称 为 异 
方差 (heteroscedastic ) 模型 。 在 异 方差 情况 下 ， 我们 简单 地 把 方差 指定 为 f(x; 0) 
其 中 一 个 输出 值 。 实 现 它 的 典型 方法 是 使 用 精度 而 不 是 方差 来 表示 高 斯 分 布 ， 就 像 
式 (3.22) 所 描述 的 。 在 多 维 变量 的 情况 下 ， 最 常见 的 是 使 用 一 个 对 角 精 度 和 矩阵 


diag(G). (6.34) 


这 个 公式 适用 于 梯度 下 降 ， 因 为 由 8 参数 化 的 高 斯 分 布 的 对 数 似 然 的 公式 仅 涉及 B; 
的 乘法 和 log; 的 加 法 。 乘 法 、 加 法 和 对 数 运算 的 梯度 表现 良好 。 相 比 之 下 ， 如 果 
我 们 用 方差 来 参数 化 输出， 我 们 需要 用 到 除法 。 除 法 函数 在 零 附近 会 变 得 任意 陡峭 。 
虽然 大 梯度 可 以 帮助 学 习 ， 但 任意 大 的 梯度 通常 导致 不 稳定 。 如 果 我 们 用 标准 差 来 
参数 化 输出 ， 对 数 似 然 仍然 会 涉及 除法 ， 并 且 还 将 涉及 平方 。 通 过 平方 运算 的 梯度 
可 能 在 零 附近 消失 ,， 这 使 得 学 习 被 平方 的 参数 变 得 困难 。 无 论 我 们 使 用 的 是 标准 差 ， 
方差 还 是 精度 ， 我 们 必须 确保 高 斯 分 布 的 协 方差 矩阵 是 正定 的 。 因 为 精度 矩阵 的 特 
征 值 是 协 方差 矩阵 特征 值 的 倒数 ， 所 以 这 等 价 于 确保 精度 矩阵 是 正定 的 。 如 果 我 们 
使 用 对 角 和 天 阵 ， 或 者 是 一 个 常数 乘 以 单位 矩阵 1!， 那 么 我 们 需要 对 模型 输出 强加 的 唯 
一 条 件 是 它 的 元 素 都 为 正 。 如 果 我 们 假设 a 是 用 于 确定 对 角 精 度 的 模型 的 原始 激活 ， 

1 译 者 注 : 这 里 原文 是 “If we use a diagonal matrix, or a scalar times the diagonal matrix..” 即 “如 果 我 们 使 


用 对 角 和 矩阵， 或 者 是 一 个 标量 乘 以 对 角 和 矩阵 …”， 但 一 个 标量 乘 以 对 角 和 矩阵 和 对 角 抢 阵 没 区 别 ， 结 合 上 下 文 可 以 看 出 ， 
这 里 原作 者 误 把 “identity” 写 成 了 “diagonal matrix”， 因 此 这 里 采用 “常数 乘 以 单位 矩阵 ”的 译 法 。 
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那么 可 以 用 softplus 函数 来 获得 正 的 精度 向 量 : 8 = C4(a)。 这 种 相同 的 策略 对 于 方 
差 或 标准 差 同 样 适用 ， 也 适用 于 常数 乘 以 单位 阵 的 情况 。 

学 习 一 个 比 对 角 和 矩阵 具有 更 丰 宣 结构 的 协 方差 或 者 精度 和 矩阵 是 很 少见 的 。 如 果 
协 方差 矩阵 是 满 的 和 有 条 件 的 ， 那 么 参数 化 的 选择 就 必须 要 保证 预测 的 协 方差 矩阵 
是 正定 的 。 这 可 以 通过 写成 d(x) = B(x) B' (x) 来 实现 ， 这 里 B 是 一 个 无 约束 的 
方 阵 。 如 果 和 矩阵 是 满 秩 的 ， 那 么 一 个 实际 问题 是 计算 代价 似 然 是 很 高 的 ， 计 算 一 个 
d x d 的 矩阵 的 行列 式 或 者 D(x) WA (或 者 等 价 地 并 日 更 常用 地 ， 对 它 特征 值 分 解 
或 者 B(x) 的 特征 值 分 解 ) 需要 O(d*) 的 计算 量 。 

我 们 经 常 想 要 执行 多 峰 回 归 (multimodal regression)， 即 预测 条 件 分 布 p(y | x) 
MISC, 该 条 件 分 布 对 于 相同 的 a 值 在 y 空间 中 有 多 个 不 同 的 峰值 。 在 这 种 情况 下 ， 
高 斯 混合 是 输出 的 自然 表示 (Jacobs et al., 1991; Bishop, 1994)。 将 高 斯 混合 作为 其 
输出 的 神经 网 络 通常 被 称 为 混合 密度 网 络 ( mixture density network )。 具 有 n 个 分 
量 的 高 斯 混合 输出 由 下 面 的 条 件 分 布 定 义 : 


p(y | £) = 2 pe =i | 2A (y; u® (2), X (a). (6.35) 


神经 网 络 必须 有 三 个 输出 : 定义 ple = i| x) 的 向 量 ， 对 所 有 的 i 给 出 nO (a) BB 
阵 ， 以 及 对 所 有 的 i 给 出 DO (x) 的 张 量 。 这 些 输出 必须 满足 不 同 的 约束 : 





1. 混合 组 件 p(c = i | 四 : EMAAR Be? c AKE, Æ n 个 不 同 组 件 上 形 
成 Multinoulli 分 布 。 这 个 分 布 通常 可 以 由 n. 维 向 量 的 softmax 来 获得 ， 以 确 
保 这 些 输出 是 正 的 并 且 和 为 1。 


N 


. 均值 O(a): 它们 指明 了 与 第 i 个 高 斯 组 件 相 关联 的 中 心 或 者 均值 ， 并 且 是 无 
约束 的 (通常 对 于 这 些 输出 单元 完全 没有 非 线性 )。 如 果 y 是 个 d 维 向 量 ， 那 
么 网 络 必须 输出 一 个 由 n 个 这 种 d 维 向 量 组 成 的 mox d 的 矩阵 。 用 最 大 似 然 来 
学 习 这 些 均值 要 比 学 习 只 有 一 个 输出 模式 的 分 布 的 均值 稍稍 复杂 一 些 。 我 们 只 
想 更 新 那个 真正 产生 观测 数据 的 组 件 的 均值 。 在 实践 中 ， 我 们 并 不 知道 是 哪个 
组 件 产 生 了 观测 数据 。 负 对 数 似 然 表 达 式 将 每 个 样本 对 每 个 组 件 的 贡献 进行 赋 
权 ， 权 重 的 大 小 由 相应 的 组 件 产 生 这 个 样本 的 概率 来 决定 。 


?我 们 之 所 以 认为 c 是 潜在 的 ， 是 因为 我 们 不 能 直接 在 数据 中 观测 到 它 : 给 定 输入 x 和 目标 y， 不 可 能 确切 地 知道 
哪个 高 斯 组 件 产生 y， 但 我 们 可 以 想象 y 是 通过 选择 其 中 一 个 来 产生 的 ， 并 且 将 那个 未 被 观测 到 的 选择 作为 随机 变 
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3. 协 方差 x? (a). 它们 指明 了 每 个 组 件 i 的 协 方差 矩阵 。 和 学 习 单个 高 斯 组 件 时 
一 样 ， 我 们 通常 使 用 对 角 和 矩阵 来 避免 计算 行列 式 。 和 学 习 混 合 均值 时 一 样 ， 最 
大 似 然 是 很 复杂 的 ， 它 需要 将 每 个 点 的 部 分 责任 分 配给 每 个 混合 组 件 。 如 果 给 
定 了 混合 模型 的 正确 的 负 对 数 似 然 ， 梯 度 下 降 将 自动 地 遵循 正确 的 过 程 。 





有 报告 说 基于 梯度 的 优化 方法 对 于 混合 条 件 高 斯 (作为 神经 网 络 的 输出 ) 可 能 是 不 
可 靠 的 , 部 分 是 因为 涉及 到 除法 ( 除 以 方差 ) 可 能 是 数值 不 稳定 的 ( 当 某 个 方差 对 于 
特定 的 实例 变 得 非常 小 时 ， 会 导致 非常 大 的 梯度 )。 一 种 解决 方法 是 梯度 截断 (clip 
gradient ) ( 见 第 10.11.1 节 )， 另 外 一 种 是 启发 式 缩放 梯度 (Murray and Larochelle 
2014)。 


高 斯 混合 输出 在 语音 生成 模型 (Schuster, 1999) 和 物理 运动 (Graves, 2013) 中 特 
别 有 效 。 混 合 密度 策略 为 网 络 提供 了 一 种 方法 来 表示 多 种 输出 模式 ， 并 且 控 制 输出 
的 方差 ， 这 对 于 在 这 些 实数 域 中 获得 高 质量 的 结果 是 至 关 重 要 的 。 混 合 密度 网 络 的 
一 个 实例 如 图 6.4 所 示 。 











图 6.4: 从 具有 混合 密度 输出 层 的 神经 网 络 中 抽取 的 样本 。 输 入 m 从 均匀 分 布 中 采样 ， 输 出 y 从 
Pmodei(y | £) 中 采样 。 神 经 网 络 能 够 学 习 从 输入 到 输出 分 布 的 参数 的 非 线性 映射 。 这 些 参数 包括 控 
制 三 个 组 件 中 的 哪 一 个 将 产生 输出 的 概率 ， 以 及 每 个 组 件 各 自 的 参数 。 每 个 混合 组 件 都 是 高 斯 分 
布 , 具有 预测 的 均值 和 方差 。 输 出 分 布 的 这 些 方面 都 能 够 相对 输入 z 变化 ， 并 且 以 非 线性 的 方式 


改变 。 







































































一 般 的， 我 们 可 能 希望 继续 对 包含 更 多 变量 的 、 更 大 的 向 量 y 来 建 模 ， 并 在 
这 些 输出 变量 上 施加 更 多 更 丰富 的 结构 。 例 如 ,我们 可 能 希望 神经 网 络 输 出 字符 序 
列 形成 一 个 句子 。 在 这 些 情况 下 ， 我 们 可 以 继续 使 用 最 大 似 然 原 理应 用 到 我 们 的 模 
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型 p(y.e(2)) 上 ， 但 我 们 用 来 描述 y 的 模型 会 变 得 非常 复杂 ， 超 出 了 本 章 的 范畴 。 
第 十 章 描述 了 如 何 使 用 循环 神经 网 络 来 定义 这 种 序列 上 的 模型 ， 第 三 部 分 描述 了 对 
任意 概率 分 布 进 行 建 模 的 高 级 技术 。 


6.3 ”隐藏 单元 


到 目前 为 止 , 我 们 集中 讨论 了 神经 网 络 的 设计 选择 , 这 对 于 使 用 基于 梯度 的 优化 
方法 来 训练 的 大 多 数 参数 化 机 器 学 习 模型 都 是 通用 的 。 现 在 我 们 转向 一 个 前 馈 神经 
网 络 独 有 的 问题 : 该 如 何 选 择 隐 藏 单元 的 类 型 ， 这 些 隐藏 单元 用 在 模型 的 隐藏 层 中 。 

隐藏 单元 的 设计 是 一 个 非常 活跃 的 研究 领域 ， 并 且 还 没有 许多 明确 的 指导 性 理 
论 原则 。 

整流 线性 单元 是 隐藏 单元 极 好 的 默认 选择 。 许 多 其 他 类 型 的 隐藏 单 元 也 是 可 用 
的 。 决 定 何 时 使 用 哪 种 类 型 的 隐藏 单元 是 困难 的 事 〈 尽 管 整流 线性 单元 通常 是 一 个 
可 接受 的 选择 )。 我 们 这 里 描述 对 于 每 种 隐藏 单元 的 一 些 基本 直觉 。 这 些 直 觉 可 以 用 
来 建议 我 们 何 时 来 尝试 一 些 单元 。 通 常 不 可 能 预先 预测 出 哪 种 隐藏 单元 工作 得 最 好 。 
设计 过 程 充满 了 试验 和 错误 ， 先 直觉 认为 某 种 隐藏 单元 可 能 表现 良好 ， 然 后 用 它 组 
成 神经 网 络 进 行 训 练 ， 最 后 用 验证 集 来 评估 它 的 性 能 。 

这 里 列 出 的 一 些 隐 藏 单元 可 能 并 不 是 在 所 有 的 输入 点 上 都 是 可 微 的 。 例 如 ， 整 
流 线 性 单元 g(z) = max{0;z} 在 z = 0 处 不 可 微 。 这 似乎 使 得 9 对 于 基于 梯度 的 学 
习 算 法 无 效 。 在 实践 中 , 梯度 下 降 对 这 些 机 需 学 习 模型 仍然 表现 得 足够 好 。 部 分 原因 
是 神经 网 络 训练 算法 通 稼 不 会 达到 代价 函数 的 局 部 最 小 值 ， 而 是 仅仅 显著 地 减 小 它 
的 值 ， 如 图 4.3 所 示 。 这 些 想法 会 在 第 八 章 中 进一步 描述 。 因 为 我 们 不 再 期 望 训练 能 
够 实际 到 达 梯 度 为 0 的 点 ， 所 以 代价 函数 的 最 小 值 对 应 于 梯度 未 定义 的 点 是 可 以 接 
受 的 。 不 可 微 的 隐藏 单元 通常 只 在 少数 点 上 不 可 微 。 一 般 来 说 ,函数 g(z) 具有 左 导 
数 和 右 导 数 ， 左 导数 定义 为 紧邻 在 z 左边 的 函数 的 斜率 ， 右 导数 定义 为 紧邻 在 z 右 
边 的 函数 的 斜率 。 只 有 当 函 数 在 z 处 的 左 导数 和 右 导 数 都 有 定义 并 且 相 等 时 ， 函 数 
在 z 点 处 才 是 可 微 的 。 神 经 网 络 中 用 到 的 函数 通常 对 左 导数 和 右 导 数 都 有 定义 。 在 
g(z) = max{0, z} 的 情况 下 ,在 z = 0 处 的 左 导数 是 0， 右 导数 是 1。 神 经 网 络 训练 
的 软件 实现 通常 返回 左 导 数 或 右 导 数 的 其 中 一 个 ， 而 不 是 报告 导数 未 定义 或 产生 一 
个 错误 。 这 可 以 通过 观察 到 在 数字 计算 机 上 基于 梯度 的 优化 总 是 会 受到 数值 误差 的 
影响 来 启发 式 地 给 出 理由 。 当 一 个 函数 被 要 求 计算 g(0) 时 ， 底 层 值 真正 为 0 是 不 太 
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可 能 的 。 相 对 的 ， 它 可 能 是 被 舍 入 为 0 的 一 个 小 量 e。 在 某 些 情况 下 ,理论 上 有 更 好 
的 理由 ， 但 这 些 通常 对 神经 网 络 训练 并 不 适用 。 重 要 的 是 ， 在 实践 中 ， 我 们 可 以 放 
心地 忽略 下 面 描述 的 隐藏 单元 激活 函数 的 不 可 微 性 。 

除非 另 有 说 明 ， 大 多 数 的 隐藏 单元 都 可 以 描述 为 接受 输入 向 量 z， 计 算 仿 射 变 
换 z= W' zx 十 b， 然 后 使 用 一 个 逐 元 素 的 非 线性 函数 g(z)。 大 多 数 隐藏 单元 的 区 别 
仅仅 在 于 激活 函数 g(z) 的 形式 。 














6.3.1 ”整流 线性 单元 及 其 扩展 


整流 线性 单元 使 用 激活 函数 g(z) = max{0, z}。 

整流 线性 单元 易于 优化 ， 因 为 它们 和 线性 单元 非常 类 似 。 线 性 单元 和 整流 线性 
单元 的 唯一 区 别 在 于 整流 线性 单元 在 其 一 半 的 定义 域 上 输出 为 零 。 这 使 得 只 要 整流 
线性 单元 处 于 激活 状态 ， 它 的 导数 都 能 保持 较 大 。 它 的 梯度 不 仅 大 而 且 一 致 。 整 流 
操作 的 二 阶 导数 几乎 处 处 为 0， 并 旦 在 整流 线性 单元 处 于 激活 状态 时 , 它 的 一 阶 导 数 
处 处 为 1。 这 意味 着 相 比 于 引入 二 阶 效应 的 激活 函数 来 说 ， 它 的 梯度 方向 对 于 学 习 来 
说 更 加 有 用 。 


整流 线性 单元 通常 作用 于 仿 射 变换 之 上 : 














h=g(W x4 b). (6.36) 


当初 始 化 仿 射 变换 的 参数 时 ， 可 以 将 b 的 所 有 元 素 设置 成 一 个 小 的 正 值 ， 例 如 0.1. 
这 使 得 整流 线性 单元 很 可 能 初始 时 就 对 训练 集中 的 大 多 数 输 入 呈现 激活 状态 ， 并 且 
允许 导数 通过 。 

有 很 多 整流 线性 单元 的 扩展 存在 。 大 多 数 这 些 扩展 的 表现 比 得 上 整流 线性 单元 ， 
并 且 偶 尔 表 现 得 更 好 。 

整流 线性 单元 的 一 个 缺陷 是 它们 不 能 通过 基于 梯度 的 方法 学 习 那 些 使 它们 激活 
为 零 的 样本 。 整 流 线 性 单元 的 各 种 扩展 保证 了 它们 能 在 各 个 位 置 都 接收 到 梯度 。 

整流 线性 单元 的 三 个 扩展 基于 当 z < 0 时 使 用 一 个 非 零 的 斜率 a hi = 
g(z, a); = max(0,2;) + a; min(0, z;), AWA (absolute value rectification ) [Al 
定 ai = 一 1 来 得 到 g(z) = |z|。 它 用 于 图 像 中 的 对 象 识别 (Jarrett et al., 2009a), 其 中 
寻找 在 输入 照明 极 性 反 转 下 不 变 的 特征 是 有 意义 的 。 整 流 线 性 单元 的 其 他 扩展 比 这 
应 用 地 更 广泛 。 渗 漏 整流 线性 单元 (Leaky ReLU ) (Maas et al., 2013) a; 固定 成 
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一 个 类 似 0.01 的 小 值 ， 参 数 化 整流 线性 单元 (parametric ReLU ) 或 者 PReLU 将 
a; 作为 学 习 的 参数 (He et al., 2015)。 

maxout 单元 ( maxout unit ) (Goodfellow et al., 2013a) 进一步 扩展 了 整流 线 
性 单元 。maxout 单元 将 z 划分 为 每 组 具有 k 个 值 的 组 ， 而 不 是 使 用 作用 于 每 个 元 
素 的 函数 g(z). f^ | maxout 单元 则 输出 每 组 中 的 最 大 元 素 : 

g(z)i = m (6.37) 

这 里 GO 是 组 i 的 输入 索引 集 {(i 一 1k 十 1,...,ik}。 这 提供 了 一 种 方法 来 学 习 对 输 
A a 空间 中 多 个 方向 响应 的 分 段 线性 函数 。 

maxout 单元 可 以 学 习 具 有 多 达 k 段 的 分 段 线性 的 凸 函 数 。maxonut 单元 因此 可 
以 视 为 学 习 激活 函数 本 身 而 不 仅仅 是 单元 之 间 的 关系 。 使 用 足够 大 的 大，maxonut 单 
元 可 以 以 任意 的 精确 度 来 近似 任何 凸 函数 。 特 别 地 ， 具 有 两 块 的 maxout 层 可 以 学 
习 实 现 和 传统 层 相 同 的 输入 z 的 函数 ， 这 些 传统 层 可 以 使 用 整流 线性 激活 函数 、 绝 
对 值 整流 、 渗 漏 整 流 线 性 单元 或 参数 化 整流 线性 单元 ， 或 者 可 以 学 习 实 现 与 这 些 都 
不 同 的 函数 。maxout 层 的 参数 化 当然 也 将 与 这 些 层 不 同 ， 所 以 即使 是 maxout 学 习 
去 实现 和 其 他 种 类 的 层 相同 的 ac 的 函数 这 种 情况 下 ， 学 习 的 机 理 也 是 不 一 样 的 。 

每 个 maxout 单元 现在 由 大 个 权重 向 量 来 参数 化 , 而 不 仅仅 是 一 个 ,所 以 maxout 
单元 通常 比 整流 线性 单元 需要 更 多 的 正则 化 。 如 果 训 练 集 很 大 并 且 每 个 单元 的 块 数 
保持 很 低 的 话 ， 它 们 可 以 在 没有 正则 化 的 情况 下 工作 得 不 错 (Cai et al., 2013)。 

maxout 单元 还 有 一 些 其 他 的 优点 。 在 某 些 情况 下 ， 要 求 更 少 的 参数 可 以 获得 一 
些 统计 和 计算 上 的 优点 。 有 具体 来 说 ， 如 果 由 ?个 不 同 的 线性 过 滤器 描述 的 特征 可 以 
在 不 损失 信息 的 情况 下 ， 用 每 一 组 & 个 特征 的 最 大 值 来 概括 的 话 ， 那 么 下 一 层 可 以 
获得 k 倍 更 少 的 权重 数 。 

因为 每 个 单元 由 多 个 过 滤器 驱动 ，maxonut 单元 具有 一 些 元 余 来 帮助 它们 抵抗 一 
种 被 称 为 灾难 遗忘 (catastrophic forgetting) 的 现象 ， 这 个 现象 是 说 神经 网 络 忘 记 
了 如 何 执行 它们 过 去 训练 的 任务 (Goodfellow et al., 2014a)。 

整流 线性 单元 和 它们 的 这 些 扩展 都 是 基于 一 个 原则 ， 那 就 是 如 果 它 们 的 行为 更 
接近 线性 ， 那 么 模型 更 容易 优化 。 使 用 线性 行为 更 容易 优化 的 一 般 性 原则 同样 也 适 
用 于 除 深度 线性 网 络 以 外 的 情景 。 循 环 网 络 可 以 从 序列 中 学 习 并 产生 状态 和 输出 的 
序列 。 当 训练 它们 时 ， 需 要 通过 一 些 时 间 步 来 传播 信息 ， 当 其 中 包含 一 些 线 性 计算 
(有 具有 大 小 接近 1 的 某 些 方向 导数 ) 时 ， 这 会 更 容易 。 作 为 性 能 最 好 的 循环 网 络 结构 
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之 一 ，LSTM 通过 求 和 在 时 间 上 传播 信息 ， 这 是 一 种 特别 直观 的 线性 激活 。 它 将 在 
第 10.10 节 中 进一步 讨论 。 


6.3.2 logistic sigmoid 与 双 曲 正切 函数 
在 引入 整流 线性 单元 之 前 ， 大 多 数 神经 网 络 使 用 logistic sigmoid 激活 函数 
g(z) = o(2) (6.38) 
或 者 是 双 曲 正切 激活 函数 
g(z) — tanh(z). (6.39) 
这 些 激活 函数 紧密 相关 ， 因 为 tanh(z) = 2e(2z) — 1. 

我 们 已 经 看 过 sigmoid 单元 作为 输出 单元 用 来 预测 二 值 型 变量 取 值 为 1 的 概率 。 
与 分 段 线性 单元 不 同 ，sigmoid 单元 在 其 大 部 分 定义 域内 都 饱和 一 一 当 > 取 绝 对 值 
很 大 的 正 值 时 ， 它 们 饱和 到 一 个 高 值 ， 当 z 取 绝 对 值 很 大 的 负 值 时 ， 它 们 饱和 到 一 
个 低 值 ， 并 且 仅 仅 当 z 接近 0 时 它们 才 对 输入 强烈 敏感 。sigmoid 单元 的 广泛 饱和 
性 会 使 得 基于 梯度 的 学 习 变 得 非常 困难 。 因 为 这 个 原因 ,现在 不 鼓励 将 它们 用 作 前 
馈 网 络 中 的 隐藏 单元 。 当 使 用 一 个 合适 的 代价 函数 来 抵消 sigmoid 的 饱和 性 时 ， 它 
们 作为 输出 单元 可 以 与 基于 梯度 的 学 习 相 兼容 。 

当 必 须要 使 用 sigmoid 激活 函数 时 ， 双 曲 正切 激活 函数 通常 要 比 logistic sig- 
moid 函数 表现 更 好 。 在 tanh(0) = 0 而 o(0) = 的 意义 上 ， 它 更 像 是 单位 函数 。 
为 tanh 在 0 附近 与 单位 函数 类 似 ， 训 练 深层 神经 网 络 9g = w tanh(U" tanh(V' z)) 
类 似 于 训练 一 个 线性 模型 9 = w UT V' zx， 只 要 网 络 的 激活 能 够 被 保持 地 很 小 。 这 
使 得 训练 tanh 网 络 更 加 容易 。 

sigmoid 激活 函数 在 除了 前 僻 网 络 以 外 的 情景 中 更 为 常见 。 循 环 网 络 、 许 多 概率 
模型 以 及 一 些 自 编 码 器 有 一 些 额 外 的 要 求 使 得 它们 不 能 使 用 分 段 线性 激活 函数 ， 并 
且 使 得 sigmoid 单元 更 具有 吸引 力 ， 尽 管 它 存在 饱和 性 的 问题 。 





6.3.3 ”其 他 隐藏 单元 


也 存在 许多 其 他 种 类 的 隐藏 单元 ,但 它们 并 不 常用 。 
一 般 来 说 ， 很 多 种 类 的 可 微 函 数 都 表现 得 很 好 。 许 多 未 发 布 的 激活 函数 与 流行 
的 激活 函数 表现 得 一 样 好 。 为 了 提供 一 个 具体 的 例子 ， 作 者 在 MNIST 数据 集 上 使 
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用 h= cos( Wa + b) 测试 了 一 个 前 馈 网 络 ， 并 获得 了 小 于 196 的 误差 率 ， 这 可 以 与 
更 为 传统 的 激活 孔 数 获得 的 结果 相 媲 美 。 在 新 技术 的 研究 和 开发 期 间 ， 通 常会 测试 
许多 不 同 的 激活 函数 ， 并 且 会 发 现 许多 标准 方法 的 变 体 表 现 非 常 好 。 这 意味 着 ， 通 
常 新 的 隐藏 单元 类 型 只 有 在 被 明确 证 明 能 够 提供 显著 改进 时 才 会 被 发 布 。 新 的 隐藏 
单元 类 型 如 果 与 已 有 的 隐藏 单元 表现 大 致 相当 的 话 ， 那 么 它们 是 非常 常见 的 ， 不 会 
引起 别人 的 兴趣 。 

列 出 文献 中 出 现 的 所 有 隐藏 单元 类 型 是 不 切实 际 的 。 我 们 只 对 一 些 特别 有 用 和 
独特 的 类 型 进行 强调 。 

其 中 一 种 是 完全 没有 激活 函数 g(z)。 也 可 以 认为 这 是 使 用 单位 函数 作为 激活 函 
数 的 情况 。 我 们 已 经 看 过 线性 单元 可 以 用 作 神 经 网 络 的 输出 。 它 也 可 以 用 作 隐 藏 单 
元 。 如 果 神 经 网 络 的 每 一 层 都 仅 由 线性 变换 组 成 ， 那么 网 络 作为 一 个 整体 也 将 是 线 
性 的 。 然 而 ， 神 经 网 络 的 一 些 层 是 纯 线 性 也 是 可 以 接受 的 。 考 虑 具有 n 个 输入 和 pp 
个 输出 的 神经 网 络 层 h = g(W zx 十 5)。 我 们 可 以 用 两 层 来 代 百 它 ， 一 层 使 用 权重 矩 
E UV， 另 一 层 使 用 权重 和 矩阵 V。 如 果 第 一 层 没有 激活 函数 ， 那 么 我 们 对 基于 WW 的 
原始 层 的 权重 矩阵 进行 因 式 分 解 。 分 解 方法 是 计算 瑚 = g(V'U z+b)。 WR U 7” 
ET q 个 输出 ,那么 UMV ENEE (n+ p 个 参数 ， 而 W & np 个 参数 。 
如 果 q 很 小 ， 这 可 以 在 很 大 程度 上 节省 参数 。 这 是 以 将 线性 变换 约束 为 低 秩 的 代价 
来 实现 的 ， 但 这 些 低 秩 关系 往往 是 足够 的 。 线 性 隐藏 单元 因此 提供 了 一 种 减少 网 络 
中 参数 数量 的 有 效 方法 。 

softmax 单元 是 另外 一 种 经 常用 作 输 出 的 单元 ( 如 第 6.2.2.3 节 中 所 描述 的 ), 但 
有 时 也 可 以 用 作 隐 藏 单元 。softmax 单元 很 自然 地 表示 具有 个 可 能 值 的 离散 型 随 
机 变量 的 概率 分 布 ， 所 以 它们 可 以 用 作 一 种 开关 。 这 些 类 型 的 隐藏 单元 通常 仅 用 于 
明确 地 学 习 操作 内 存 的 高 级 结构 中 ， 将 在 第 10.12 节 中 描述 。 

其 他 一 些 常见 的 隐藏 单元 类 型 包括 : 














e. 径 向 基 函 数 radial basis function, RBF ): h; = exp (一 十 上 | W.; — zo)。 这 个 
函数 在 c 接近 模板 Wu 时 更 加 活跃 。 因 为 它 对 大 部 分 = 都 饱和 到 0， 因 此 很 
难 优化 。 

e softplusiK Zi: g(a) = C(a) = log(1 + e*)。 这 是 整流 线性 单元 的 平滑 版 本 ， 
由 Dugas et al. (2001b) 引入 用 于 函数 近似 ， 由 Nair and Hinton (2010a) 引入 
用 于 无 向 概率 模型 的 条 件 分 布 。Glorot et al. (2011a) 比较 了 softplus 和 整流 线 
性 单元 ,发 现 后 者 的 结果 更 好 。 通 常 不 鼓励 使 用 softplus 函数 。softplus 表明 隐 
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藏 单元 类 型 的 性 能 可 能 是 非常 反 直 觉 的 一 一 因为 它 处 处 可 导 或 者 因为 它 不 完全 
饱和 ， 人 们 可 能 希望 它 具 有 优 于 整流 线性 单元 的 点 ， 但 根据 经 验 来 看 ， 它 并 没 
有 。 

e 硬 双 曲 正切 函数 (hard tanh ): 它 的 形状 和 tanh 以 及 整流 线性 单元 类 似 , 但 是 
不 同 于 后 者 ， 它 是 有 界 的 ，g(a) = max( 一 1, min(1,a)). EF Collobert (2004) 
引入 。 


可 





隐藏 单元 的 设计 仍然 是 一 个 活跃 的 研究 领域 , 许多 有 用 的 隐藏 单元 类 型 仍 有 待 
发 现 。 


6.4 ”架构 设计 


神经 网 络 设计 的 另 一 个 关键 点 是 确定 它 的 架构 。 架构 ( architecture ) 一 词 是 指 
网 络 的 整体 结构 : 它 应 该 具有 多 少 单元 ， 以 及 这 些 单 元 应 该 如 何 连接 。 

大 多 数 神经 网 络 被 组 织 成 称 为 层 的 单元 组 。 大 多 数 神经 网 络 架 构 将 这 些 层 布置 
成 链 式 结构 ， 其 中 每 一 层 都 是 前 一 层 的 函数 。 在 这 种 结构 中 ， 第 一 层 由 下 式 给 出 : 

hD = gO (WO a bo) (6.40) 
第 二 层 由 

y^ — WY nO 4. 99); (6.41) 
给 出 ， 以 此 类 推 。 

在 这 些 链 式 架 构 中 ， 主 要 的 架构 考虑 是 选择 网 络 的 深度 和 每 一 层 的 宽度 。 我 们 
将 会 看 到 ， 即 使 只 有 一 个 隐藏 层 的 网 络 也 足够 适应 训练 集 。 更 深层 的 网 络 通常 能 够 
对 每 一 层 使 用 更 少 的 单元 数 和 更 少 的 参数 ， 并 且 经 常 容 易 泛 化 到 测试 集 ， 但 是 通常 
也 更 难以 优化 。 对 于 一 个 具体 的 任务 ， 理 想 的 网 络 架 构 必 须 通过 实验 ， 观 测 在 验证 
集 上 的 误差 来 找到 。 





6.4.1 ”万 能 近似 性 质 和 深度 


线性 模型 ,通过 矩阵 乘法 将 特征 映射 到 输出 ,顾名思义 ， 仪 能 表示 线性 函数 。 它 
有 具 有 易于 训练 的 优点 , 因为 当 使 用 线性 模型 时 , 许多 损失 函数 会 时 出 凸 优 化 问题 。 不 
滁 的 是 ， 我 们 经 常 希望 我 们 的 系统 学 习 非 线性 函数 。 
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乍 一 看 ， 我 们 可 能 认为 学 习 非 线性 函数 需要 为 我 们 想 要 学 习 的 那 种 非 线性 专 
门 设计 一 类 模型 族 。 幸 运 的 是 ， 具 有 隐藏 层 的 前 馈 网 络 提供 了 一 种 万 能 近似 框架 。 
具体 来 说 ， 万 能 近似 定理 (universal approximation theorem ) (Hornik et al., 1989; 
Cybenko, 1989) 表明 ， 一 个 前 馈 神经 网 络 如 果 有 具有 线性 输出 层 和 至 少 一 层 具 有 任何 
一 种 “ 挤 压 ”性 质 的 激活 函数 (例如 logistic sigmoid 激 活 函 数 ) 的 隐藏 层 ， 只 要 给 予 
网 络 足够 数量 的 隐藏 单元 ， 它 可 以 以 任意 的 精度 来 近似 任何 从 一 个 有 限 维 空间 到 另 
一 个 有 限 维 空间 的 Borel 可 测 函数 。 前 馈 网 络 的 导数 也 可 以 任意 好 地 来 近似 函数 的 
导数 (Hornik et aL, 1990)。Borel 可 测 的 概念 超出 了 本 书 的 范畴 ; 对 于 我 们 想 要 实 
现 的 目标 ， 只 需要 知道 定义 在 R 的 有 界 闭 集 上 的 任意 连续 函数 是 Borel 可 测 的 ， 
因此 可 以 用 神经 网 络 来 近似 。 神 经 网 络 也 可 以 近似 从 任何 有 限 维 离散 空间 映射 到 男 
一 个 的 任意 函数 。 虽 然 原 始 定 理 最 初 以 具有 特殊 激活 函数 的 单元 的 形式 来 描述 ， 这 
个 激活 函数 当 变 量 取 绝对 值 非常 大 的 正 值 和 负 什 时 都 会 饱和 ， 万 能 近似 定理 也 已 经 
被 证 明 对 于 更 广泛 类 别 的 激活 函数 也 是 适用 的 ， 其 中 就 包括 现在 常用 的 整流 线性 单 
元 (Leshno et al., 1993). 

万 能 近似 定理 意味 着 无 论 我 们 试图 学 习 什 么 函数 ， 我 们 知道 一 个 大 的 MLP 一 
定 能 够 表示 这 个 国 数 。 然 而 ， 我 们 不 能 保证 训练 算法 能 够 学 得 这 个 函数 。 即 使 MLP 
能 够 表示 该 函数 ， 学 习 也 可 能 因 两 个 不 同 的 原因 而 失败 。 首 先 ， 用 于 训练 的 优化 算 
法 可 能 找 不 到 用 于 期 望 函 数 的 参数 值 。 其 次 ， 训 练 算法 可 能 由 于 过 拟 合 而 选择 了 错 
误 的 函数 。 回 忆 第 5.2.1 市 中 的 “没有 免费 的 午餐 ”定理 ,说 明了 没有 普遍 优越 的 机 
器 学 习 算 法 。 前 馈 网 络 提供 了 表示 函数 的 万 能 系统 ， 在 这 种 意义 上 ， 给 定 一 个 函数 ， 
存在 一 个 前 馈 网 络 能 够 近似 该 函数 。 不 存在 万 能 的 过 程 既 能 够 验证 训练 集 上 的 特殊 
样本 ， 又 能 够 选择 一 个 函数 来 扩展 到 训练 集 上 没有 的 点 。 

万 能 近似 定理 说 明了 ， 存 在 一 个 足够 大 的 网 络 能 够 达到 我 们 所 希望 的 任意 精度 ， 
但 是 定理 并 没有 说 这 个 网 络 有 多 大 。Barron (1993) 提供 了 单 层 网 络 近 似 一 大 类 函数 
所 需 大 小 的 一 些 界 。 不 幸 的 是 , 在 最 坏 情况 下 ,可 能 需要 指数 数量 的 隐藏 单元 ( 可 能 
一 个 隐藏 单元 对 应 着 一 个 需要 区 分 的 输入 配置 )。 这 在 二 进 制 情 况 下 很 容易 看 到 : 向 
量 ve {0,1}” 上 的 可 能 的 二 进 制 函 数 的 数量 是 2 ， 并 且 选 择 一 个 这 样 的 函数 需要 
2” 位 ， 这 通常 需要 O(2") WA FARE. 

AZ, 具有 单 层 的 前 馈 网 络 足 以 表示 任何 函数 ， 但 是 网 络 层 可 能 大 得 不 可 实现 ， 
并 且 可 能 无 法 正确 地 学 习 和 泛 化 。 在 很 多 情况 下 ， 使 用 更 深 的 模型 能 够 减少 表示 期 
望 函 数 所 需 的 单元 的 数量 ， 并 且 可 以 减少 泛 化 误差 。 

存在 一 些 函数 族 能 够 在 网 络 的 次 度 大 于 某 个 值 d 时 被 高 效 地 近似 ， 而 当 深 度 被 
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限制 到 小 于 或 等 于 d 时 需要 人 在 很 多 情况 下 ， 浅 层 模 型 所 
需 的 隐藏 单元 的 数量 是 n 的 指数 级 。 这 个 结果 最 初 被 证 明 是 在 那些 不 与 pen 
神经 网 络 类 似 的 机 器 学 习 模型 中 出 现 ， 但 现在 已 经 扩展 到 了 这 些 模 型 。 个 结果 
是 关于 逻辑 门 电路 的 (Hastad, 1986). a 
重 的 线性 阔 值 单元 (Hastad and Goldmann, 1991; Hajnal et aL, 1993)， 然 后 扩展 到 
ee aid (Maass, 1992; Maass et al., 1994)。 许 多 现代 神经 网 络 使 
整流 线性 单元 。Leshno et al. (1993) 证 明 带 有 一 大 类 非 多 项 式 激活 函数 族 的 浅 层 
isi 包括 整流 线性 单元 ， 具 有 万 能 的 近似 性 质 ， 但 是 这 些 结果 并 没有 强调 深度 或 
效率 的 问题 一 一 它们 仅 指出 足够 宽 的 整流 网 络 能 够 表示 任意 果 数 。Montufar et al. 
(2014) 指出 一 些 用 深度 整流 网 络 表示 的 函数 可 能 需要 浅 层 网 络 (一 个 隐藏 层 ) 指数 
级 的 隐藏 单元 才能 表示 。 更 确切 的 说 ， 他 们 说 明 分 段 线性 网 络 〈 可 以 通过 整流 非 线 
性 或 maxout 单元 获得 ) 可 以 表示 区 域 的 数量 是 网 络 深度 的 指数 级 的 函数 。 图 6.5 解 
释 了 带 有 绝对 值 整流 的 网 络 是 如 何 创 建 函 数 的 镜像 图 像 的 ， 这 些 函 数 在 某 些 隐藏 单 
元 的 顶部 计算 ， 作 用 于 隐藏 单元 的 输入 。 每 个 隐藏 单元 指定 在 哪里 折 生 输入 空间 , 来 
创造 镜像 响应 ( 在 绝对 值 非 线性 的 两 侧 )。 通 过 组 合 这 些 折 县 操作 ， 我 们 获得 指数 级 
的 分 段 线性 区 域 ， 他 们 可 以 概括 所 有 种 类 的 规则 模式 〈 例 如 ， 重复 )。 

















图 6.5: 关于 更 深 的 整流 网 络 具 有 指数 优势 的 一 个 直观 的 几何 解释 ,来 自 Montufar et al. (2014). 
( 左 ) 绝 对 值 整流 单元 对 其 输入 中 的 每 对 镜像 点 有 相同 的 输出 。 镜 像 的 对 称 轴 由 单元 的 权重 和 偏 置 
定义 的 超 平面 给 出 。 在 该 单元 项 部 计算 的 函数 (绿色 决策 面 ) 将 是 横 跨 该 对 称 轴 的 更 简单 模式 的 

一 个 镜像 。( 中 ) 该 函数 可 以 通过 折 炙 对 称 轴 周 围 的 空间 来 得 到 。( 右 ) 另 一 个 重复 模式 可 以 在 第 一 
个 的 顶部 折 县 (由 另 一 个 下 游 单元 ) 以 获得 另外 的 对 称 性 〈 现在 重复 四 次 ,使 用 了 两 个 隐藏 层 )。 
经 Montufar et al. (2014) 许可 改编 此 图 。 















































Montufar et al. (2014) 的 主要 定理 指出 ， 具 有 d 个 输入 、 深 度 为 1、 每 个 隐藏 
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层 具 有 n 个 单元 的 深度 整流 网 络 可 以 描述 的 线性 区 域 的 数量 是 


(^) (6.42) 


意味 着 ， 这 是 深度 | 的 指数 级 。 在 每 个 单元 具有 k 个 过 滤器 的 maxout 网 络 中 ， 线 
性 区 域 的 数量 是 
O (R98, (6.43) 


当然 ， 我 们 不 能 保证 在 机 器 学 习 《〈 特 别 是 AI ) 的 应 用 中 我 们 想 要 学 得 的 函数 类 
型 享有 这 样 的 属性 。 

我 们 还 可 能 出 于 统计 原因 来 选择 深度 模型 。 任 何 时 候 , 当 我 们 选择 一 个 特定 的 机 
器 学 习 算 法 时 , 我 们 隐 含 地 陈述 了 一 些 先 验 , 这 些 先 验 是 关于 算法 应 该 学 得 什么 样 的 
函数 的 。 选 择 深 度 模 型 默许 了 一 个 非常 普遍 的 信念 , 那 就 是 我 们 想 要 学 得 的 函数 应 该 
涉及 几 个 更 加 简单 的 函数 的 组 合 。 这 可 以 从 表示 学 习 的 观点 来 解释 , 我 们 相信 学 习 的 
问题 包含 发 现 一 组 潜在 的 变 差 因素 ， 它 们 可 以 根据 其 他 更 简单 的 潜在 的 变 差 因素 来 
描述 。 或者, 我 们 可 以 将 深度 结构 的 使 用 解释 为 男 一 种 信念 ,， 那 就 是 我 们 想 要 学 得 的 
函数 是 包含 多 个 步骤 的 计算 机 程序 ， 其 中 每 个 步 又 使 用 前 一 步骤 的 输出 。 这 些 中 间 
输出 不 一 定 是 变 差 因素 ， 而 是 可 以 类 似 于 网 络 用 来 组 织 其 内 部 处 理 的 计数 器 或 指针 。 
根据 经 验 ， 更 深 的 模型 似乎 确实 在 广泛 的 任务 中 泛 化 得 更 好 (Bengio et al., 2007b; 
Erhan et al., 2009; Bengio, 2009; Mesnil et al., 2011; Ciresan et al., 2012; Krizhevsky 
et al., 2012a; Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013; Kahou 
et al., 2013; Goodfellow et al., 2014d; Szegedy et al., 2014a)。 图 6.6 和 图 6.7 展 示 了 
一 些 实验 结果 的 例子 。 这 表明 使 用 深层 架构 确实 在 模型 学 习 的 函数 空间 上 表示 了 一 
个 有 用 的 先 验 。 























6.4.2 ”其 他 架构 上 的 考虑 
目前 为 止 ， 我 们 都 将 神经 网 络 描 述 成 层 的 简单 链 式 结构 ， 主 要 的 考虑 因素 是 网 
络 的 深度 和 每 层 的 宽度 。 在 实践 中 ， 神 经 网 络 显 示 出 相当 的 多 样 性 。 


许多 神经 网 络 架 构 已 经 被 开发 用 于 特定 的 任务 。 用 于 计算 机 视觉 的 卷 积 神经 网 
络 的 特殊 架构 将 在 第 九 章 中 介绍 。 前 馈 网 络 也 可 以 推广 到 用 于 序列 处 理 的 循环 神经 
网 络 ， 但 有 它们 自己 的 架构 考虑 ， 将 在 第 十 章 中 介绍 。 
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图 6.6: 深度 的 影响 。 实 验 结果 表明 ， 当 从 地 址 照片 转录 多 位 数字 时 ， 更 深层 的 网 络 能 够 更 好 地 泛 


化 。 数据 来 自 Goodfellow et al. (2014d) . 测试 集 上 的 准确 率 随 着 深度 的 增加 而 不 断 增加 。 


























出 了 一 个 对 照 实 验 ， 它 说 明了 对 模型 尺寸 其 他 方面 的 增加 并 不 能 产生 相同 的 效果 。 
97 
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图 6.7; 参数 数量 的 影响 。 更 深 的 模型 往往 表现 更 好 。 这 不 仅仅 是 因为 模型 更 大 。Goodfellow et al. 
(2014d) 的 这 项 实验 表明 ， 增 加 卷 积 网 络 层 中 参数 的 数量 ,但 是 不 增加 它们 的 深度 ， 在 提升 测试 集 
性 能 方面 几乎 没有 效果 ， 如 此 图 所 示 。 图 例 标明 了 用 于 画 出 每 条 曲线 的 网 络 深度 ， 以 及 曲线 表示 












































的 是 卷 积 层 还 是 全 连接 层 的 大 小 变化 。 我 们 可 以 观察 到 ， 
到 2000 万 时 就 过 拟 合 ， 而 深层 模型 
模型 表达 出 了 对 模型 可 以 学 习 的 函数 空间 的 有 用 偏好 。 具 体 来 说 ， 
应 该 由 许多 更 简单 的 函数 复合 在 一 起 而 得 到 。 这 可 外 
如 ， 由 边 所 定义 的 角 ) 或 者 学 习 具 有 顺序 依赖 步 又 
们 ， 之 后 识别 它们 )。 




































































的 程序 ( 例如 ， 





ww ai bt. com cL HEB O D DB 


在 这 种 情况 下 ， 浅 层 模 型 在 参数 数量 达 
在 参数 数量 超过 6000 万 时 仍然 表现 良好 。 这 表明 ， 使 用 深层 
它 表 达 了 一 种 信念 ， 即 该 函数 
E 导 致 学 习 由 更 简单 的 表示 所 组 成 的 表示 ( 例 
首先 定位 一 组 对 象 ， 然 后 分 割 它 
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一 般 的 ， 层 不 需要 连接 在 链 中 ， 尽 管 这 是 最 常见 的 做 法 。 许 多 架构 构建 了 一 个 
主 链 ， 但 随后 又 添加 了 额外 的 架构 特性 ， 例 如 从 层 i 到 层 ;二 2 或 者 更 高 层 的 跳跃 连 
接 。 这 些 跳跃 连接 使 得 梯度 更 容易 从 输出 层 流 向 更 接近 输入 的 层 。 

架构 设计 考虑 的 男 外 一 个 关键 点 是 如 何 将 层 与 层 之 间 连 接 起 来 。 默 认 的 神经 网 
络 层 采用 和 矩阵 W 描述 的 线性 变换 ,每 个 输入 单元 连接 到 每 个 输出 单元 。 在 之 后 章节 
中 的 许多 专用 网 络 具 有 较 少 的 连接 ， 使 得 输入 层 中 的 每 个 单元 仅 连 接 到 输出 层 单元 
的 一 个 小 子 集 。 这 些 用 于 减少 连接 数量 的 策略 减少 了 参数 的 数量 以 及 用 于 评 佑 网络 
的 计算 量 , 但 通常 高 度 依赖 于 问题 。 例 如 ， 第 九 章 描 述 的 卷 积 神经 网 络 使 用 对 于 计 
算 机 视觉 问 题 非常 有 效 的 稀 琉 连接 的 专用 模式 。 在 这 一 章 中 ,， 很 难 对 通用 神经 网 络 
的 架构 给 出 更 多 具体 的 建议 。 我 们 在 随后 的 章节 中 介绍 一 些 特殊 的 架构 策略 ， 可 以 
在 不 同 的 领域 工作 良好 。 
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当 我 们 使 用 前 馈 神 经 网 络 接收 输入 m 并 产生 输出 和 时 ,信息 通过 网 络 向 前 流 
动 。 输 入 z 提供 初始 信息 ， 然 后 传播 到 每 一 层 的 隐藏 单 元 ， 最 终 产生 输出 yo PK 
之 为 前 向 传播 (forward propagation )。 在 训练 过 程 中 ， 前 向 传播 可 以 持续 向 前 直 
到 它 产 生 一 个 标量 代价 函数 J(0)。 反 向 传播 (back propagation ) 算法 (Rumelhart 
et al., 1986c)， 经 党 简称 为 backprop ， 人 允许 来 自 代 价 函 数 的 信息 通过 网 络 向 后 流动 ， 
以 便 计 算 梯 度 。 

计算 梯度 的 解析 表达 式 是 很 直观 的 ， 但 是 数值 化 地 求解 这 样 的 表达 式 在 计算 上 
的 代价 可 能 很 大 。 反 向 传播 算法 使 用 简单 和 廉价 的 程序 来 实现 这 个 目标 。 

反 向 传播 这 个 术语 经 常 被 误解 为 用 于 多 层 神经 网 络 的 整个 学 习 算 法 。 实 际 上 ， 
反 向 传播 仅 指 用 于 计算 梯度 的 方法 ,而 男 一 种 算法 , 例如 随机 梯度 下 降 , 使 用 该 梯度 
来 进行 学 习 。 此 外 ， 反 向 传播 经 常 被 误解 为 仅 适 用 于 多 层 神 经 网 络 ， 但 是 原则 上 它 
可 以 计算 任何 函数 的 导数 (对 于 一 些 函 数 ， 正 确 的 响应 是 报告 函数 的 导数 是 未 定义 
的 )。 特 别 地 ， 我 们 会 描述 如 何 计算 一 个 任意 孔 数 f 的 梯度 Vif (a, y), HEP z 是 一 
组 变量 ,我 们 需要 它们 的 导数 ， 而 y 是 孔 数 的 另外 一 组 输入 变量 ,但 我 们 并 不 需要 
它们 的 导数 。 在 学 习 算 法 中 ， 我 们 最 常 需要 的 梯度 是 代价 函数 关于 参数 的 梯度 ， 即 
Ve.J(6)。 许 多 机 器 学 习 任 务 需要 计算 其 他 导数 ， 来 作为 学 习 过 程 的 一 部 分 ， 或 者 用 
来 分 析 学 得 的 模型 。 反 向 传播 算法 也 适用 于 这 些 任务 ,不 局 限于 计算 代价 函数 关于 
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参数 的 梯度 。 通 过 在 网 络 中 传播 信息 来 计算 导数 的 想法 非常 普遍 ， 它 还 可 以 用 于 计 
算 诸 如 多 输出 函数 f 的 Jacobian WIE. 我们 这 里 描述 的 是 最 常用 的 情况 ， 其 中 f 





只 有 单个 输出 。 
6.5.1 ”计算 图 


目前 为 止 ， 我 们 已 经 用 相对 非 正式 的 图 形 语 言 讨论 了 神经 网 络 。 为 了 更 精确 地 
描述 反 向 传播 算法 ,使 用 更 精确 的 计算 图 (computational graph ) 语言 是 很 有 帮助 
的 。 

将 计算 形式 化 为 图 形 的 方法 有 很 多 。 

这 里 , 我 们 使 用 图 中 的 每 一 个 节点 来 表示 一 个 变量 。 变量 可 以 是 标量 、 向 量 、 算 
阵 、 张 量 、 或 者 甚至 是 另 一 类 型 的 变量 。 

为 了 形式 化 我 们 的 图 形 ， 我 们 还 需 引 入 操作 (operation ) 这 一 概念 。 操 作 是 指 
一 个 或 多 个 变量 的 简单 函数 。 我 们 的 图 形 语 言 伴随 着 一 组 被 允许 的 操作 。 我 们 可 以 
通过 将 多 个 操作 复合 在 一 起 来 描述 更 为 复杂 的 函数 。 

不 失 一 般 性 , 我 们 定义 一 个 操作 仪 返回 单个 输出 变量 。 这 并 没有 失去 一 般 性 , 是 
因为 输出 变量 可 以 有 多 个 条 目 ， 例 如 向 量 。 反 向 传播 的 软件 实现 通常 支持 具有 多 个 
输出 的 操作 ， 但 是 我 们 在 描述 中 避免 这 种 情况 ， 因 为 它 引 入 了 对 概念 理解 不 重要 的 
许多 额外 细节 。 

如 果 变 量 y 是 变量 z 通过 一 个 操作 计算 得 到 的 , 那么 我 们 画 一 条 从 x By 的 有 
回 边 。 我 们 有 时 用 操作 的 名 称 来 注释 输出 的 节点 ， 当 上 下 文 很 明确 时 ， 有 时 也 会 省 
略 这 个 标注 。 

计算 图 的 实例 可 以 参考 图 6.8 。 














6.5.2 MIRA PAPA 


微 积 分 中 的 链 式 法 则 〈 为 了 不 与 概率 中 的 链 式 法 则 相 混 应 ) 用 于 计算 复合 函数 
的 导数 。 反 向 传播 是 一 种 计算 链 式 法 则 的 算法 ， 使 用 高 效 的 特定 运算 顺序 。 
设 z 是 实数 ，f 和 g 是 从 实数 映射 到 实数 的 函数 。 假设 y = g(x) FH. z = 
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图 6.8: 一 些 计 算 图 的 示例 。(a) 使 用 x 操作 计算 z = zy BUE. (b) 用 于 逻辑 回归 预测 g 
alz w+ b) 的 图 。 一些 中 间 表 达 式 在 代数 表达 式 中 没有 名 称 ， 但 在 图 形 中 却 需 要 。 我 们 简单 
第 i 个 这 样 的 变量 命名 为 u. (c) RER H = max(0, XW + b) 的 计算 图 ， 在 给 定 包含 小 批 
输入 数据 的 设计 矩阵 筷 时 ， 它 计算 整流 线性 单元 激活 的 设计 和 矩阵 H. (d) 示例 a-c 对 每 个 变量 
多 只 实施 一 个 操作 ， 但 是 对 变量 实施 多 个 操作 也 是 可 能 的 。 这 里 我 们 展示 一 个 计算 网 ， 它 对 线性 
回归 模型 的 权重 w 实施 多 个 操作 。 这 个 权重 不 仅 用 于 预测 少 ， 也 用 于 权重 衰减 罚 项 AD, wi。 
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f(g(x)) = f(y)。 那么 链 式 法 则 是 说 


dz  dzdy 


— = 一 一. .44 
dx  dydx on 


我 们 可 以 将 这 种 标量 情况 进行 扩展 。 假设 ze R",y € R^, g 是 从 及 ”到 R” 的 
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映射 ，f 是 从 R” 到 R 的 映射 。 如 果 y = g(x) 并 且 z= f(y), ABA 





Oz — Oz Oy; 
BET 2. IATA (6.45) 
j 
使 用 向 量 记 法 ， 可 以 等 价 地 写成 
Oy T 
Vzz = (#2) Vaz (6.46) 


这 里 D Æ g 的 nxm 的 Jacobian 矩阵 。 

从 这 里 我 们 看 到 ， 变 量 x 的 梯度 可 以 通过 Jacobian FH hE SY 和 梯度 V z 相 乘 来 
得 到 。 反 向 传播 算法 由 图 中 每 一 个 这 样 的 Jacobian 梯度 的 乘积 操作 所 组 成 。 

通常 我 们 将 反 向 传播 算法 应 用 于 任意 维度 的 张 量 ， 而 不 仅仅 用 于 向 量 。 从 概念 
上 讲 ， 这 与 使 用 向 量 的 反 向 传播 完全 相同 。 唯 一 的 区 别 是 如 何 将 数字 排列 成 网 格 以 
形成 张 量 。 我 们 可 以 想象 ， 在 我 们 运行 反 向 传播 之 前 ， 将 每 个 张 量变 平 为 一 个 向 量 ， 
计算 一 个 向 量 值 梯度 ， 然 后 将 该 梯度 重新 构造 成 一 个 张 量 。 从 这 种 重新 排列 的 观点 
上 看 ， 反 向 传播 仍然 只 是 将 Jacobian 乘 以 梯度 。 

为 了 表示 值 z 关于 张 量 X 的 梯度 ， 我 们 记 为 Vxz， 就 像 X 是 向 量 一 样 。X 的 
索引 现在 有 多 个 坐标 一 一 例如 ， 一 个 3 维 的 张 量 由 三 个 坐标 索引 。 我 们 可 以 通过 
使 用 单个 变量 i 来 表示 完整 的 索引 元 组 ， 从 而 完全 抽象 出 来 。 对 所 有 可 能 的 元 组 d, 
(Vxz), 给 出 Seo 这 与 向 量 中 索引 的 方式 完全 一 致 ，(Va。z); 给 出 识 。 使 用 这 种 记 
法 ， 我 们 可 以 写 出 适用 于 张 量 的 链 式 法 则 。 如 果 Y = 9(X) FFA z = f(Y). ABA 


a 
Vxz = XY (6.47) 
J 

















6.5.3 “递归 地 使 用 链 式 法 则 来 实现 反 向 传播 


使 用 链 式 规则 ,我 们 可 以 直接 写 出 某 个 标量 关于 计算 图 中 任何 产生 该 标量 的 节 
点 的 梯度 的 代数 表达 式 。 然 而 ， 实 际 在 计算 机 中 计算 该 表达 式 时 会 引入 一 些 额外 的 
考虑 。 

具体 来 说 ， 许 多 子 表达 式 可 能 在 梯度 的 整个 表达 式 中 重复 大 干 次。 任何 计算 梯 
度 的 程序 都 需要 选择 是 存储 这 些 子 表达 式 还 是 重新 计算 它们 几 次 。 图 6.9 给 出 了 一 个 
例子 来 说 明 这 些 重复 的 子 表 达 式 是 如 何 出 现 的 。 在 某 些 情况 下 ， 计 算 两 次 相同 的 子 
表达 式 纯 粹 是 浪费 。 在 复杂 图 中 ， 可 能 存在 指数 多 的 这 种 计算 上 的 浪费 ， 使 得 简单 
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的 链 式 法 则 不 可 实现 。 在 其 他 情况 下 ， 计 算 两 次 相同 的 子 表达 式 可 能 是 以 较 高 的 运 
行 时 间 为 代价 来 减少 内 存 开销 的 有 效 手 段 。 

我 们 首先 给 出 一 个 版 本 的 反 向 传播 算法 ， 它 指明 了 梯度 的 直接 计算 方式 ( 算 
法 6.2 以 及 相关 的 正 向 计算 的 算法 6.1 )， 按 照 它 实 际 完成 的 顺序 并 且 递 归 地 使 用 链 
式 法 则 。 我 们 可 以 直接 执行 这 些 计算 或 者 将 算法 的 描述 视 为 用 于 计算 反 向 传播 的 计 
算 图 的 符号 表示 。 然 而 ， 这 些 公式 并 没有 明确 地 操作 和 构造 用 于 计算 梯度 的 符号 图 。 
这 些 公式 将 在 后 面 的 第 6.5.6 节 和 算法 6.5 中 给 出 ， 其 中 我 们 还 推广 到 了 包含 任意 张 
量 的 节点 。 

首先 考虑 描述 如 何 计算 单个 标量 u 〈 例如 训练 样本 上 的 损失 函数 ) 的 计算 图 。 
我 们 想 要 计算 这 个 标量 对 n; 个 输入 节点 ut Bu) 的 梯度 。 换 句 话说， 我 们 希望 
对 所 有 的 ie {1,2,.….,mi} 计算 总 。 在 使 用 反 向 传播 计算 梯度 来 实现 参数 的 梯度 
下 降 时 , ul 将 对 应 单个 或 者 小 批量 实例 的 代价 函数 ， 而 wD 到 ww) 则 对 应 于 模型 
的 参数 。 

我 们 假设 图 的 节点 已 经 以 一 种 特殊 的 方式 被 排序 ,使 得 我 们 可 以 一 个 接 一 个 地 
计算 他 们 的 输出 ， 从 uU 开始 ， 一直 上升 到 u., WAE 6.1 中 所 定义 的 ， 每 个 
节点 uO 与 操作 f 相关 联 ， 并 且 通 过 对 以 下 函数 求 值 来 得 到 





u® = VA), (6.48) 





其 中 AO uO 所 有 父 节点 的 集合 。 

该 算法 详细 说 明了 前 向 传播 的 计算 ,我 们 可 以 将 其 放 入 图 9 中 。 为 了 执行 反 向 
传播 ， 我 们 可 以 构造 一 个 依赖 于 9 并 添加 额外 一 组 节点 的 计算 图 。 这 形成 了 一 个 子 
图 B， 它 的 每 个 节点 都 是 9 的 节点 。B 中 的 计算 和 9 中 的 计算 顺序 完全 相反 ， 而 且 
B 中 的 每 个 节点 计算 导数 290. 与 前 向 图 中 的 节点 WO 相关 联 。 这 通过 对 标量 输出 
ul) 使 用 链 式 法 则 来 完成 : 

Qu _ 3 Ou” Ou (6.49) 


Ould) Ou Ou 
i:jEPa(u™) 








这 在 算法 6.2 中 详细 说 明 。 子 图 B 恰好 包含 每 一 条 对 应 着 9 中 从 节点 uO 到 节点 
uÒ WD. M uD 到 uO 的 边 对 应 着 计算 名 5。 另 外 ， 对 于 每 个 节点 都 要 执行 一 个 

只 ， 内 积 的 一 个 因子 是 对 于 wi 子 节 点 uO 的 已 经 计算 的 梯度 ， 另 一 个 因子 是 对 于 
相同 子 节点 uO 的 偏 导数 2 组 成 的 向 量 。 总 而 言 之 ,执行 反 向 传播 所 需 的 计算 量 
与 9 中 的 边 的 数量 成 比例 ， 其 中 每 条 边 的 计算 包括 计算 偏 导数 ( 节点 关于 它 的 一 个 
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算法 6.1 计算 将 mw 个 输入 u 到 ue) 映射 到 一 个 输出 uU 的 程序 。 这 定义 了 一 
个 计算 图 ， 其 中 每 个 节点 通过 将 函数 fO 应 用 到 变量 集合 AO 上 来 计算 uO 的 值 ， 
AO 包含 先前 节点 u® 的 值 满足 j < i Hj e Pa(u 中 )。 计 算 图 的 输入 是 向 量 v, 并 
且 被 分 配给 前 n; 个 节点 uO 到 wl" 。 计 算 图 的 输出 可 以 从 最 后 一 个 (输出 ) 节点 
u™ 读 出 。 

for i = 1,...,n; do 








u® & a; 
end for 
fori=n;+1,...,n do 
A & {uM | j € Pa(u(?)) 
u® + fO (AM) 
end for 


return u^? 








父 节 点 的 偏 导 数 ) 以 及 执行 一 次 乘法 和 一 次 加 法 。 下 面 ， 我 们 将 此 分 析 推 广 到 张 量 
值 节点 ， 这 只 是 在 同一 节点 中 对 多 个 标量 值 进行 分 组 并 能 够 更 高 效 地 实现 。 

反 向 传播 算法 被 设计 为 减少 公共 子 表 达 式 的 数量 而 不 考虑 存储 的 开销 。 具 体 来 
说 , 它 大 约 对 图 中 的 每 个 节点 执行 一 个 Jacobian 乘积 。 这 可 以 从 算法 6.2 中 看 出 , 反 
向 传播 算法 访问 了 图 中 的 节点 wD 到 节点 uO 的 每 条 边 一 次 ， 以 获得 相关 的 偏 导数 
9u 。 反 向 传播 因此 避免 了 重复 子 表达 式 的 指数 爆炸 。 然 而 ， 其 他 算法 可 能 通过 对 
计算 图 进行 简化 来 避免 更 多 的 子 表达 式 ， 或 者 也 可 能 通过 重新 计算 而 不 是 存储 这 些 
子 表达 式 来 节省 内 存 。 我 们 将 在 描述 完 反 向 传播 算法 本 身后 再 重新 审视 这 些 想 法 。 
































6.5.4 全 连接 MLP 中 的 反 向 传播 计算 

为 了 阐明 反 向 传播 的 上 述 定义 ， 让 我 们 考虑 一 个 与 全 连接 的 多 层 MLP 相关 联 
的 特定 图 。 

算法 6.3 首 先 给 出 了 前 向 传播 ， 它 将 参数 映射 到 与 单个 训练 样本 ( 输入， 目标 ) 
(x, y) 相关 联 的 监督 损失 函数 L(y, y), FE yE z 提供 输入 时 神经 网 络 的 输出 。 

算法 6.4 随 后 说 明了 将 反 向 传播 应 用 于 改 图 所 和 需 的 相关 计算 。 

算法 6.3 和 算法 6.4 是 简单 而 直观 的 演示 。 然 而 ， 它 们 专门 针对 特定 的 问题 。 
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图 6.9: 计算 梯度 时 导致 重复 子 表达 式 的 计算 图 。 令 w eR 为 图 的 输入 。 我 们 对 链 中 的 每 一 步 使 
用 相同 的 操作 函数 ff: ROR, 这 样 x = f(w),y = f(x),z = f(yv)。 为 了 计算 oz 我 们 应 用 











式 (6.44) 得 到 : 
oe (6.50) 
Eu (6.51) 
=f (y) f (x)f'(w) (6.52) 
=f (FEF Go) (w). (6.53) 











R (6.52) 建议 我 们 采用 的 实现 方式 是 ， 仅 计算 fo) 的 值 一 次 并 将 它 存储 在 变量 z 中 。 这 是 反 
向 传播 算法 所 采用 的 方法 。 式 (6.53) 提出 了 一 种 替代 方法 ， 其 中 子 表达 式 f(w) 出 现 了 不 止 一 
次 。 在 替代 方法 审 ， 每 次 只 在 需要 时 重新 计算 f(w)。 当 存储 这 些 表达 式 的 值 所 需 的 存储 较 少 时 ， 
式 (6.52) 的 反 向 传播 方法 显然 是 较 优 的 ， 因 为 它 减少 了 运行 时 间 。 然 而 ， 式 (6.53) 也 是 链 式 法 则 的 
有 效 实现 ， 并 且 当 存储 受 限时 它 是 有 用 的 。 
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现在 的 软件 实现 基于 之 后 第 6.5.6 节 中 描述 的 一 般 形式 的 反 向 传播 ， 它 可 以 通过 
显 式 地 操作 表示 符号 计算 的 数据 结构 ,来 适应 任何 计算 图 。 


6.5.5 ”符号 到 符号 的 导数 


代数 表达 式 和 计算 图 都 对 符号 (symbol ) 或 不 具有 特定 值 的 变量 进行 操作 。 这 
些 代 数 或 者 基于 图 的 表达 式 被 称 为 符号 表示 ( symbolic representation )。 当 我 们 实 
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算法 6.2 反 向 传播 算法 的 简化 版 本 ， 用 于 计算 wu 关于 图 中 变量 的 导数 。 这 个 示 
例 旨 在 通过 演示 所 有 变量 都 是 标量 的 简化 情况 来 进一步 理解 反 向 传播 算法 ， 这 里 我 
们 希望 计算 关于 ual) 的 导数 。 这 个 简化 版 本 计算 了 关于 图 中 所 有 节点 的 导 
数 。 假 定 与 每 条 边 相 关联 的 偏 导数 计算 需要 恒定 的 时 间 的 话 ， 该 算法 的 计算 成 本 与 
图 中 边 的 数量 成 比例 。 这 与 前 向 传播 的 计算 次 数 具 有 相同 的 阶 。 每 个 OHO uO 的 
父 节点 uC 的 函数 ， 从 而 将 前 向 图 的 节点 链接 到 反 向 传播 图 中 添加 的 节点 。 

运行 前 向 传播 (对 于 此 例 是 算法 6.1) 获得 网 络 的 激活 。 

初始 化 grad_table， 用 于 存储 计算 好 的 导数 的 数据 结构 。grad_table[wG] 将 存 
fig 9*7 计算 好 的 值 。 


grad table[u"] — 1 

















for j = n — 1 down to 1 do 
4 ] 、 uo) u 9 au 0 
下 一 行使 用 存储 的 值 计 算 xL = 2 sje Pau) Quo BUG? 


grad table[u?] — 2 iije Pau) grad table[u(?] 2r 








end for 


return (grad table[u(?]| i = 1,...,m;) 





际 使 用 或 者 训练 神经 网 络 时 ， 我 们 必须 给 这 些 符 号 赋 特 定 的 值 。 我 们 用 一 个 特定 
的 数值 (numeric value) KARMA SHA zx， 例如 [1.2,3, 765,—-1.8]". 

一 些 反 向 传播 的 方法 采用 计算 图 和 一 组 用 于 图 的 输入 的 数值 ， 然 后 返回 在 这 些 
输入 值 处 梯度 的 一 组 数值 。 我 们 将 这 种 方法 称 为 符号 到 数值 的 微分 。 这 种 方法 用 在 
诸如 Torch (Collobert et al., 2011b) 和 Caffe (Jia, 2013) 之 类 的 库 中 。 

男 一 种 方法 是 采用 计算 图 以 及 添加 一 些 额外 的 节点 到 计算 图 中 ， 这 些 额 外 的 节 
点 提供 了 我 们 所 需 导 数 的 符号 描述 。 这 是 Theano (Bergstra et al., 2010b; Bastien 
et al., 2012b) 和 TensorFlow (Abadi et al., 2015) 所 采用 的 方法 。 图 6.10 给 出 了 该 方 
法 如 何 工作 的 一 个 例子 。 这 种 方法 的 主要 优点 是 导数 可 以 使 用 与 原始 表达 式 相 同 的 
语言 来 描述 。 因 为 导数 只 是 另外 一 张 计算 图 ， 我 们 可 以 再 次 运行 反 向 传播 ， 对 导数 
再 进行 求 导 就 能 得 到 更 高 阶 的 导数 。 高 阶 导 数 的 计算 在 第 6.5.10 节 中 描述 。 

我 们 将 使 用 后 一 种 方法 ， 并 且 使 用 构造 导数 的 计算 图 的 方法 来 描述 反 向 传播 算 
法 。 图 的 任意 子 集 之 后 都 可 以 使 用 特定 的 数值 来 求 值 。 这 允许 我 们 避免 精确 地 指明 
每 个 操作 应 该 在 何 时 计算 。 相 反 ， 通 用 的 图 计算 引擎 只 要 当 一 个 节点 的 父 节 点 的 值 
都 可 用 时 就 可 以 进行 求 值 。 
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算法 6.3 典型 深度 神经 网 络 中 的 前 向 传播 和 代价 函数 的 计算 。 损 失 函 数 L(G, y) 取 
决 于 输出 多 和 目标 y (参考 第 6.2.1.1 节 中 损失 函数 的 示例 )。 为 了 获得 总 代价 J, dii 
失 函 数 可 以 加 上 正则 项 2(9)， 其 中 0 包含 所 有 参数 (权重 和 偏 置 )。 算 法 6.4 说 明了 
如 何 计算 J 关于 参数 W P b 的 梯度 。 为 简单 起 见 ， 该 演示 仅 使 用 单个 输入 样本 z。 
实际 应 用 应 该 使 用 小 批量 。 请 参考 第 6.5.7 节 以 获得 更 加 真实 的 演示 。 
Require: 网 络 深度 ,1 
Require: W® i € (1,...,1), 模型 的 权重 矩阵 
Require: b® i € {1,... ,人 中， 模型 的 偏 置 参 数 
Require: x， 程序 的 输入 
Require: y, Hii 
AO =a 
for =1,...,1 do 
a = bP + Ww (6-0 
h™ = f(a) 
end for 
y= n? 
J = L(y, y) + AQ(0) 








基于 符号 到 符号 的 方法 的 描述 包含 了 符号 到 数值 的 方法 。 符 号 到 数值 的 方法 可 
以 理解 为 执行 了 与 符号 到 符号 的 方法 中 构建 图 的 过 程 中 完全 相同 的 计算 。 关 键 的 区 
别 是 符号 到 数值 的 方法 不 会 显示 出 计算 图 。 





6.5.6 一般 化 的 反 向 传播 


反问 传播 算法 非常 简单 。 为 了 计算 某 个 标量 z 关于 图 中 它 的 一 个 祖先 z 的 梯 
度 ， 我 们 首先 观察 到 它 关 于 > 的 梯度 由 至 = 1 给 出 。 然 后 ,我 们 可 以 计算 对 图 中 > 
的 每 个 父 节 点 的 梯度 ， 通 过 现 有 的 梯度 乘 以 产生 z 的 操作 的 Jacobian。 我 们 继续 乘 
以 Jacobian， 以 这 种 方式 向 后 穿 过 图 ， 直 到 我 们 到 达 z。 对 于 从 z 出 发 可 以 经 过 两 
个 或 更 多 路 径 向 后 行进 而 到 达 的 任意 节点 ， 我 们 简单 地 对 该 节点 来 自 不 同 路 径 上 的 
梯度 进行 求 和 。 

更 正式 地 ， 图 9 中 的 每 个 节点 对 应 着 一 个 变量 。 为 了 实现 最 大 的 一 般 化 ， 我 们 
将 这 个 变量 描述 为 一 个 张 量 V。 张 量 通常 可 以 具有 任意 维度 ， 并 且 包 含 标量 、 向 量 
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算法 6.4 深度 神经 网 络 中 算法 6.3 的 反 向 计算 ， 它 不 止 使 用 了 输入 m 和 目标 yo 该 
计算 对 于 每 一 层 k 都 产生 了 对 激活 a? 的 梯度 ， 从 输出 层 开始 向 后 计算 一 直到 第 一 
个 隐藏 层 。 这 些 梯度 可 以 看 作 是 对 每 层 的 输出 应 如 何 调整 以 减 小 误差 的 指导 ， 根 据 
这 些 梯 度 可 以 获得 对 每 层 参 数 的 梯度 。 权 重 和 偏 置 上 的 梯度 可 以 立即 用 作 随 机 梯度 
更 新 的 一 部 分 ( 梯度 算出 后 即 可 执行 更 新 )， 或 者 与 其 他 基于 梯度 的 优化 方法 一 起 使 
用 。 
在 前 向 计算 完成 后 ， 计 算 顶 层 的 梯度 : 
g € VyJ = VaL(ĝ, y) 
for k =1,1-—1,...,1 do 
将 关于 层 输出 的 梯度 转换 为 非 线 性 激活 输入 前 的 梯度 ( 如 果 f 是 逐 元 素 的 ， 则 
TUR MAHA ): 
g — VawJ = gO f'(a(?) 
计算 关于 权重 和 偏 置 的 梯度 〈 如果 需 要 的 话 ， 还 要 包括 正则 项 ): 
VioJ= g + AV pn (8) 
Vy J = gh ^?" + AV gw (0) 
关于 下 一 更 低层 的 隐藏 层 传播 梯度 
g — Vyc-oJ = we g 


end for 
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图 6.10: 使 用 符号 到 符号 的 方法 计算 导数 的 示例 。 在 这 种 方法 中 , 反 向 传播 算法 不 需要 访问 任何 实 
际 的 特定 数值 。 相 反 ， 它 将 节点 添加 到 计算 图 中 来 描述 如 何 计算 这 些 导数 。 通 用 图 形 求 值 引擎 可 
以 在 随后 计算 任何 特定 数值 的 导数 。( 左 ) 在 这 个 例子 中 ， 我 们 从 表示 z = f(f(f(w))) 的 图 开始 。 
(A) 我 们 运行 反 向 传播 算法 ， 指 导 它 构造 表达 式 S5 对 应 的 图 。 在 这 个 例子 中 ， 我 们 不 解释 反 向 
传播 算法 如 何 工作 。 我 们 的 目的 只 是 说 明 想 要 的 结果 是 什么 : 符号 描述 的 导数 的 计算 图 。 







































































和 矩阵。 
我 们 假设 每 个 变量 M 与 下 列子 程序 相关 联 : 











e get_operation(V): 它 返回 用 于 计算 V 的 操作 ， 代 表 了 在 计算 图 中 流入 V 
的 边 a 例如 ， 可 能 有 一 个 Python 或 者 C++ 的 类 表示 和 矩阵 乘法 操作 ， 以 
及 get operation 函数 。 假 设 我 们 的 一 个 变量 是 由 抢 阵 乘法 产生 的 ，C = AB. 
那么 ，get_operation(V) 返回 一 个 指向 相应 C++ 类 的 实例 的 指针 。 


e get consumers(V,O): 它 返回 一 组 变量 ， 是 计算 图 9 中 M 的 子 节 点 。 








e get_inputs(V,9): 它 返 回 一 组 变量 ， 是 计算 图 9 中 V 的 父 节 点 。 


每 个 操作 op 也 与 bprop 操作 相关 联 。 该 bprop 操作 可 以 计算 如 式 (6.47) 所 描 
WAY Jacobian 向 量 积 。 这 是 反 向 传播 算法 能 够 实现 很 大 通用 性 的 原因 。 每 个 操作 负 
责 了 解 如 何 通过 它 参 与 的 图 中 的 边 来 反 向 传播 。 例 如 ， 我 们 可 以 使 用 矩阵 乘法 操作 
来 产生 变量 C= AB. 假设 标量 z 关于 C 的 梯度 是 G。 和 矩阵 乘法 操作 负责 定义 两 
个 反 向 传播 规则 ， 每 个 规则 对 应 于 一 个 输入 变量 。 如 果 我 们 调用 bprop 方法 来 请 求 
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关于 A 的 梯度 ， 那么 在 给 定 输出 的 梯度 为 G 的 情况 下 ， 和 矩阵 乘法 操作 的 bprop 方 
法 必须 说 明 关 于 A 的 梯度 是 GB 。 类 似 的 ， 如 果 我 们 调用 bprop 方法 来 请 求 关 
于 B 的 梯度 ， 那 么 矩阵 操作 负责 实现 bprop 方法 并 指定 希望 的 梯度 是 AG. KK 
传播 算法 本 身 并 不 需要 知道 任何 微分 法 则 。 它 只 需要 使 用 正确 的 参数 调用 每 个 操作 
的 bprop 方法 即 可 。 正 式 地 ， op.bprop(inputs, X, G) 必须 返回 


Y (Vxop.£ (inputs);)G;, (6.54) 


这 只 是 如 式 (6.47) 所 表达 的 链 式 法 则 的 实现 。 这 里 ，inputs 是 提供 给 操作 的 一 组 输 
A, op.f 是 操作 实现 的 数学 函数 ，X 是 输入 ， 我 们 想 要 计算 关于 它 的 梯度 ，G 是 操 
作对 于 输出 的 梯度 。 

op .bprop 方法 应 该 总 是 假装 它 的 所 有 输入 彼此 不 同 ， 即 使 它们 不 是 。 例 如 ， 如 
E mul 操作 传递 两 个 x 来 计算 x?， op .bprop 方法 应 该 仍然 返回 x 作为 对 于 两 个 输 
入 的 导数 。 反 向 传播 算法 后 面 会 将 这 些 变量 加 起 来 获得 Qa, RAE x 上 总 的 正确 的 导 
数 。 

反 向 传播 算法 的 软件 实现 通 稼 提供 操作 和 其 bprop 方法 ， 所 以 深度 学 习 软 件 库 
的 用 户 能 够 对 使 用 诸如 和 矩阵 乘法 、 指 数 运 算 、 对 数 运算 等 等 常用 操作 构建 的 图 进行 
反 向 传播 。 构建 反 向 传播 新 实现 的 软件 工程 师 或 者 需要 问 现 有 库 添加 自己 的 操作 的 
高 级 用 户 通常 必须 手动 为 新 操作 推导 op.bprop 方法 。 

反问 传播 算法 的 正式 描述 参考 算法 6.5 。 

在 第 6.5.2 节 中 ,我们 使 用 反 向 传播 作为 一 种 策略 来 避免 多 次 计算 链 式 法 则 中 的 
相同 子 表达 式 。 由 于 这 些 重复 子 表达 式 的 存在 ， 简 单 的 算法 可 能 具有 指数 运行 时 间 。 
现在 我 们 已 经 详细 说 明了 反问 传播 算法 ,我 们 可 以 去 理解 它 的 计算 成 本 。 如 果 我 们 
假设 每 个 操作 的 执行 都 有 大 致 相同 的 开销 ， 那 么 我 们 可 以 依据 执行 操作 的 数量 来 分 
析 计 算 成 本 。 注 意 这 里 我 们 将 一 个 操作 记 为 计算 图 的 基本 单位 ， 它 实际 可 能 包含 许 
多 算术 运算 ( 例如 ,我 们 可 能 将 矩阵 乘法 视 为 单个 操作 )。 在 具有 n 个 节点 的 图 中 计 
算 梯度 ， 将 永远 不 会 执行 超过 O(n?) 个 操作 ， 或 者 存储 超过 O(n?) 个 操作 的 输出 。 
这 里 我 们 是 对 计算 图 中 的 操作 进行 计数 ， 而 不 是 由 底层 硬件 执行 的 单独 操作 ， 所 以 
重要 的 是 要 记 住 每 个 操作 的 运行 时 间 可 能 是 高 度 可 变 的 。 例 如 ， 两 个 矩阵 相 乘 可 能 
对 应 着 图 中 的 一 个 单独 的 操作 ， 但 这 两 个 矩阵 可 能 每 个 都 包含 数 百 万 个 元 素 。 我 们 
可 以 看 到 ， 计算 梯 度 至 多 需要 O(n?) 的 操作 ， 因 为 在 最 坏 的 情况 下 ， 前 向 传播 的 步 
又 将 在 原始 图 的 全 部 n 个 节点 上 运行 (取决 于 我 们 想 要 计算 的 值 ， 我们 可 能 不 需要 
执行 整个 图 )。 反 向 传播 算法 在 原始 图 的 每 条 边 添加 一 个 Jacobian 向 量 积 ， 可 以 用 
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算法 6.5 反 向 传播 算法 最 外 围 的 骨架 。 这 部 分 做 简单 的 设置 和 清理 工作 。 大 多 数 重 
要 的 工作 发 生 在 算法 6.6 的 子 程序 build grad 中 。 
Require: T， 需 要 计算 梯度 的 目标 变量 
Require: G, IKI 
Require: z， 要 微分 的 变量 
令 9' 为 9 剪 校 后 的 计算 图 ， 其 中 仅 包括 z 的 祖先 以 及 了 中 节点 的 后 代 。 
初始 化 grad_table， 它 是 关联 张 量 和 对 应 导数 的 数据 结构 。 
grad_table[z] — 1 
for V in T do 
build_grad(V,G,G’, grad_table) 


end for 





Return grad_table restricted to T 





O(1) 个 节点 来 表达 。 因 为 计算 图 是 有 向 无 环 图 ， 它 至 多 有 O(n?) 条 边 。 对 于 实践 中 
常用 图 的 类 型 ， 情 况 会 更 好 。 大 多 数 神经 网 络 的 代价 函数 大 致 是 链 式 结构 的 ， 使 得 
反问 传播 只 有 O(n) 的 成 本 。 这 远 远 胜 过 简单 的 方法 ， 简 单方 法 可 能 需要 在 指数 级 
的 节点 上 运算 。 这 种 潜在 的 指数 级 代价 可 以 通过 非 递归 地 扩展 和 重 写 递 归 链 式 法 则 
( 式 (6.49) ) 来 看 出 : 





t 


du) ^ > Ou(tr-1)° 
path(u 72) ,u(72) uU), k=2 
from 741—j to m4=n 





(6.55) 


由 于 节点 j 到 节点 n 的 路 径 数目 可 以 关于 这 些 路 径 的 长 度 上 指数 地 增长 ， 所 以 上 述 
求 和 符号 中 的 项 数 (这 些 路 径 的 数目 )， 可 能 以 前 向 传播 图 的 深度 的 指数 级 增长 。 会 
产生 如 此 大 的 成 本 是 因为 对 于 2 ， 相 同 的 计算 会 重复 进行 很 多 次 。 为 了 避免 这 种 
重新 计算 , 我 们 可 以 将 反 向 传播 看 作 一 种 表 填 充 算法 ,利用 存储 的 中 间 结 果 20. 来 
对 表 进 行 填充 。 图 中 的 每 个 节点 对 应 着 表 中 的 一 个 位 置 ， 这 个 位 置 存储 对 该 节点 的 
梯度 。 通 过 顺序 填充 这 些 表 的 条 目 ， 反 向 传播 算法 避免 了 重复 计算 许多 公共 子 表达 
式 。 这 种 表 填 充 策略 有 时 被 称 为 动态 规划 (dynamic programming ). 











6.5.7 ”实例 : AF MLP 训练 的 反 向 传播 
作为 一 个 例子 ， 我 们 利用 反 辕 传播 算法 来 训练 多 层 感知 机 。 
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算法 6.6 反问 传播 算法 的 内 循环 子 程序 build grad(V,9,9',grad table)， 由 算 
法 6.5 中 定义 的 反 向 传播 算法 调用 。 
Require: V， 应 该 被 加 到 9 和 grad_table 的 变量 。 
Require: 9， 要 修改 的 图 。 
Require: 9'， 根 据 参 与 梯度 的 节点 9 的 受 限 图 。 
Require: grad_table， 将 节点 映射 到 对 应 梯度 的 数据 结构 。 

if V is in grad table then 

Return grad table|V] 
end if 
i1 





for C in get_consumers(V,G’) do 
op + get operation(C) 
D + build grad(C,C,G',grad table) 
G(? 一 op.bprop(get inputs(C,G/), V, D) 
icicl 

end for 

Gey, 6 

grad_table[V] = G 

插入 G 和 将 其 生成 到 9 中 的 操作 

Return G 











这 里 ,我 们 考虑 一 个 具有 单个 隐藏 层 的 非常 简单 的 多 层 感 知 机 。 为 了 训练 这 个 
模型 ， 我 们 将 使 用 小 批量 随机 梯度 下 降 算 法 。 反 向 传播 算法 用 于 计算 单个 小 批量 上 
的 代价 的 梯度 。 具体 来 说 , 我 们 使 用 训练 集 上 的 一 小 批量 实例 , 将 其 规范 化 为 一 个 设 
TEA X 以 及 相关 联 的 类 标签 向 量 y。 网 络 计算 隐藏 特征 层 H = max(0, XW}. 
为 了 简化 表示 ， 我 们 在 这 个 模型 中 不 使 用 偏 置 。 假 设 我 们 的 图 语言 包含 relu 操作 ， 
该 操作 可 以 对 max{0, Z} 表达 式 的 每 个 元 素 分 别 进行 计算 。 类 的 非 归 一 化 对 数 概率 
的 预测 将 随后 由 HWP 给 出 。 假 设 我 们 的 图 语言 包含 cross entropy 操作 ， 用 以 
计算 目标 y 和 由 这 些 未 归 一 化 对 数 概 率 定 义 的 概率 分 布 间 的 交叉 炉 。 所 得 到 的 交叉 
REX TRAR Truc B/E IE TBST DR OAT. 然而 ， 
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为 了 使 得 这 个 例子 更 加 真实 ,我们 也 包含 一 个 正则 项 。 总 的 代价 函数 为 


J = Juve +2 (Y: (WE) +> (y) (6.56) 


ij 


BR SACU MAB A 的 权重 衰减 项 。 它 的 计算 图 在 图 6.11 中 给 出 。 














图 6.11: 用 于 计算 代价 函数 的 计算 图 ， 这 个 代价 函数 是 使 用 交叉 炉 损失 以 及 权重 衰减 训练 我 们 的 
PAE MLP 示例 所 产生 的 。 











这 个 示例 的 梯度 计算 图 实在 太 大 ， 以 致 于 绘制 或 者 阅读 都 将 是 乏味 的 。 这 显示 
出 了 反 向 传播 算法 的 优点 之 一 ， 即 它 可 以 自动 生成 梯度 ， 而 这 种 计算 对 于 软件 工程 
师 来 说 需要 进行 直观 但 宛 长 的 手动 推导 。 

我 们 可 以 通过 观察 图 6.11 中 的 正 问 传播 图 来 粗略 地 描述 反 向 传播 算法 的 行为 。 
为 了 训练 ， 我 们 希望 计算 VwwJ 和 Vw)J。 有 两 种 不 同 的 路 径 从 J 后 退 到 权重 : 
一 条 通过 交叉 炉 代 价 ， 男 一 条 通过 权重 衰减 代价 。 权 重 衰减 代价 相对 简单 ， 它 总 是 
对 WO 上 的 梯度 贡献 24 WO, 

男 一 条 通过 交叉 炉 代价 的 路 径 稍 微 复杂 一 些 。 令 G 是 由 cross entropy 操作 
提供 的 对 未 归 一 化 对 数 概 率 UO) 的 梯度 。 反 向 传播 算法 现在 需要 探索 两 个 不 同 的 分 
x. 在 较 短 的 分 支 上 , 它 使 用 对 和 抑 阵 乘法 的 第 二 个 变量 的 反 向 传播 规则 , 将 H' G 加 
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到 WO 的 梯度 上 。 另 一 条 更 长 些 的 路 径 沿 着 网 络 逐 步 下 降 。 首 先 ， 反 向 传播 算法 使 
用 对 矩阵 乘法 的 第 一 个 变量 的 反 向 传播 规则 ， 计 算 VJ = GWOT, FE, relu 
操作 使 用 其 反 向 传播 规则 来 对 关于 UC? 的 梯度 中 小 于 0 的 部 分 清 零 。 记 上 述 结果 为 
G'。 反 向 传播 算法 的 最 后 一 步 是 使 用 对 matmul 操作 的 第 二 个 变量 的 反 向 传播 规则 ， 
将 x'G 加 到 WO 的 梯度 上 。 

在 计算 了 这 些 梯度 以 后 ， 梯 度 下 降 算法 或 者 其 他 优化 算法 所 要 做 的 就 是 使 用 这 
些 梯度 来 更 新 参数 。 

对 于 MLP， 计 算 成 本 主要 来 源 于 矩阵 乘法 。 在 前 向 传播 阶段 ， 我 们 乘 以 每 个 权 
HEM, FEET O(w) 数量 的 乘 - 加 ， 甚 中 w 是 权重 的 数量 。 在 反 向 传播 阶段 ， 我 们 
乘 以 每 个 权重 和 矩阵 的 转 置 ， 这 具有 相同 的 计算 成 本 。 算 法 主要 的 存储 成 本 是 我 们 需 
要 将 输入 存储 到 隐藏 层 的 非 线性 中 去 。 这 些 值 从 被 计算 时 开始 存储 ， 直 到 反 向 过 程 
回 到 了 同一 点 。 因 此 存储 成 本 是 Omn), EP m 是 小 批量 中 样本 的 数目 ，n,, 是 隐 
藏 单元 的 数量 。 





6.5.8 ”复杂 化 





我 们 这 里 描述 的 反 向 传播 算法 要 比 实践 中 实际 使 用 的 实现 要 简单 。 

正如 前 面 提 到 的 ,我们 将 操作 的 定义 限制 为 返回 单个 张 量 的 函数 。 大 多 数 软 件 
实现 需要 文 持 可 以 返回 多 个 张 量 的 操作 。 例 如 ， 如 果 我 们 希望 计算 张 量 中 的 最 大 值 
和 该 值 的 索引 ， 则 最 好 在 单 次 运算 中 计算 两 者 ， 因 此 将 该 过 程 实现 为 具有 两 个 输出 
的 操作 效率 更 高 。 

我 们 还 没有 描述 如 何 控制 反 向 传播 的 内 存 消 耗 。 反 上 向 传播 经 常 涉及 将 许多 张 量 
加 在 一 起 。 在 朴素 方法 中 ， 将 分 别 计 算 这 些 张 量 中 的 每 一 个 ， 然 后 在 第 二 步 中 对 所 
有 这 些 张 量 求 和 。 朴 素 方法 具有 过 高 的 存储 瓶 贷 ， 可 以 通过 保持 一 个 缓冲 右 ， 并 且 
在 计算 时 将 每 个 值 加 到 该 缓冲 器 中 来 避免 该 瓶颈 。 

反 向 传播 的 现实 实现 还 需要 处 理 各 种 数据 类 型 ， 例 如 32 位 浮 点 数 、64 位 浮 点 
数 和 整 型 。 处 理 这 些 类 型 的 策略 需要 特别 的 设计 考虑 。 

一 些 操作 具有 未 定义 的 梯度 ， 并 且 重 要 的 是 跟踪 这 些 情况 并 且 确 定 用 户 请 求 的 
梯度 是 否 是 未 定义 的 。 

各 种 其 他 技术 的 特性 使 现实 世界 的 微分 更 加 复杂 。 这 些 技 术 性 并 不 是 不 可 逾越 
的 ， 本 章 已 经 描述 了 计算 微分 所 需 的 关键 知识 工具 ， 但 重要 的 是 要 知道 还 有 许多 的 
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精妙 之 处 存在 。 


6.5.9 深度 学 习 界 以 外 的 微分 


深度 学 习 界 在 某 种 程度 上 已 经 与 更 广泛 的 计算 机 科学 界 隔离 开 来 ， 并 且 在 很 大 
程度 上 发 展 了 自己 关于 如 何 进 行 微分 的 文化 态度 。 更 一 般 地 ， 自 动 微分 (automatic 
differentiation ) 领域 关心 如 何以 算法 方式 计算 导数 。 这 里 描述 的 反问 传播 算法 只 是 
自动 微分 的 一 种 方法 。 它 是 一 种 称 为 反 向 模式 累加 (reverse mode accumulation ) 的 
更 广泛 类 型 的 技术 的 特殊 情况 。 其 他 方法 以 不 同 的 顺序 来 计算 链 式 法 则 的 子 表达 式 。 
一 般 来 说 ， 确 定 一 种 计算 的 顺序 使 得 计算 开销 最 小 ， 是 困难 的 问题 。 找 到 计算 梯度 
的 最 优 操作 序列 是 NP 完全 问题 (Naumann, 2008)， 在 这 种 意义 上 ， 它 可 能 需要 将 
代数 表达 式 简 化 为 它们 最 廉价 的 形式 。 

例如 ， 假 设 我 们 有 变量 pi, po... Dn 表示 概率 ， 以 及 变量 zi 20,..., Zn 表示 未 
归 一 化 的 对 数 概 率 。 假 设 我 们 定义 








(exp) 
Wem > uexp(zi)' 
其 中 我 们 通过 指数 化 、 求 和 与 除法 运算 构建 softmax PRA, FPP TESS SIRE PR BL 
J = 一 ,Pilog 9;。 人 类 数学 家 可 以 观察 到 J 对 zz 的 导数 采用 了 非常 简单 的 形式 : 
Didi — pio ? 反 向 传播 算法 不 能 够 以 这 种 方式 来 简化 梯度 ， 而 是 会 通过 原始 图 中 的 所 
有 对 数 和 指数 操作 显 式 地 传播 梯度 。 一 些 软件 库 如 Theano (Bergstra et al., 2010b; 
Bastien et al., 2012b) 能 够 执行 某 些 种 类 的 代数 贰 换 来 改进 由 纯 反 向 传播 算法 提出 的 
图 。 
当前 向 图 9 具有 单个 输出 节点 ， 并 且 每 个 偏 导数 OO 都 可 以 用 恒定 的 计算 量 
来 计算 时 ， 反 向 传播 保证 梯度 计算 的 计算 数目 和 前 向 计算 的 计算 数目 是 同一 个 量 级 : 
这 可 以 在 算法 6.2 中 看 出 ， 因 为 每 个 局 部 偏 导数 25. 以 及 递归 链 式 公式 (at (6.49) ) 
中 相关 的 乘 和 加 都 只 需 计 算 一 次 。 因 此 , 总 的 计算 量 是 O(#edges)。 然 而 ， 可 能 通过 
对 反 向 传播 算法 构建 的 计算 图 进行 简化 来 减少 这 些 计算 量 ， 并 且 这 是 NP 完全 问题 。 
诸如 Theano 和 TensorFlow 的 实现 使 用 基于 匹配 已 知 简 化 模式 的 试探 法 ， 以 便 重复 
地 尝试 去 简化 图 。 我 们 定义 反问 传播 仅 用 于 计算 标量 输出 的 梯度 ,但 是 反 向 传播 可 
以 扩展 到 计算 Jacobian # (该 Jacobian 矩阵 或 者 来 源 于 图 中 的 个 不 同 标量 节 
点 , 或 者 来 源 于 包含 个 值 的 张 量 值 节点 )。 朴 素 的 实现 可 能 需要 有 倍 的 计算 : 对 于 


3 译 者 注 : 这 里 作者 误 写成 了 gq; — pic 


(6.57) 
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原始 前 向 图 中 的 每 个 内 部 标量 节点 ， 朴 泰 的 实现 计算 个 梯度 而 不 是 单个 梯度 。 当 
图 的 输出 数目 大 于 输入 的 数目 时 ， 有 时 更 偏向 于 使 用 另外 一 种 形式 的 自动 微分 ， 称 
为 前 向 模式 累加 (forward mode accumulation )。 前 问 模 式 计算 已 经 被 提出 用 于 循 
环 神经 网 络 梯度 的 实时 计算 ， 例 如 (Williams and Zipser, 1989)。 这 也 避免 了 存储 整 
个 图 的 值 和 梯度 的 需要 ， 是 计算 效率 和 内 存 使 用 的 折 中 。 前 向 模式 和 后 向 模式 的 关 
系 类 似 于 左 乘 和 右 乘 一 系列 矩阵 之 间 的 关系 ， 例 如 

















ABCD, (6.58) 





其 中 的 矩阵 可 以 认为 是 Jacobian 矩阵。 例如 ， 如 果 D 是 列 向 量 ， 而 A 有 很 多 行 ， 
那么 这 对 应 于 一 幅 具 有 单个 输出 和 多 个 输入 的 图 , 并 且 从 最 后 开始 乘 ， 反 回 进 行 ,只 
需要 和 矩阵 -向 量 的 乘积 。 这 对 应 着 反 向 模式 。 相 反 ， 从 左边 开始 乘 将 涉及 一 系列 的 矩 
阵 - 和 矩阵 乘积 ， 这 使 得 总 的 计算 变 得 更 加 昂贵 。 然 而 ， 如 果 A 的 行 数 小 于 D 的 列 数 ， 
则 从 左 到 右 乘 更 为 便宜 ， 这 对 应 着 前 向 模式 。 

在 机 器 学 习 以 外 的 许多 社区 中 ， 更 常见 的 是 使 用 传统 的 编程 语言 来 直接 实现 微 
分 软件 ， 例 如 用 Python 或 者 C 来 编程 ， 并 且 自 动 生成 使 用 这 些 语言 编写 的 不 同 函 
数 的 程序 。 在 深度 学 习 界 中 ， 计 算 图 通常 使 用 由 专用 库 创 建 的 明确 的 数据 结构 表示 。 
专用 方法 的 缺点 是 需要 库 开 发 人 员 为 每 个 操作 定义 bprop 方法 ， 并 且 限 制 了 库 的 用 
户 仅 使 用 定义 好 的 那些 操作 。 然 而 ， 专 用 方法 也 人 允许 定制 每 个 操作 的 反 向 传播 规则 ， 
允许 开发 者 以 非 显 而 易 见 的 方式 提高 速度 或 稳定 性 ， 对 于 这 种 方式 自动 的 过 程 可 能 
不 能 复制 。 

因此 ， 反 回 传 播 不 是 计算 梯度 的 唯一 方式 或 最 佳 方式 ， 但 它 是 一 个 非常 实用 的 
方法 ， 继 续 为 深度 学 习 社 区 服务 。 在 未 来 ， 深 度 网 络 的 微分 技术 可 能 会 提高 ， 因 为 
深度 学 习 的 从 业者 更 加 懂得 了 更 广泛 的 自动 微分 领域 的 进步 。 











6.5.10 ”高 阶 微分 


一 些 软件 框架 支持 使 用 高 阶 导数 。 在 深度 学 习 软 件 框 架 中 ， 这 至 少 包括 Theano 
和 TensorFlow。 这 些 库 使 用 一 种 数据 结构 来 描述 要 被 微分 的 原始 函数 ， 它 们 使 用 相 
同类 型 的 数据 结构 来 描述 这 个 函数 的 导数 表达 式 。 这 意味 着 符号 微分 机 制 可 以 应 用 
于 导数 (从 而 产生 高 阶 导数 )。 

在 深度 学 习 的 相关 领域 ， 很 少 会 计算 标量 函数 的 单个 二 阶 导数 。 相 反 ， 我们 通 
常 对 Hessian 矩阵 的 性 质 比 较 感 兴趣 。 如 果 我 们 有 函数 f: R” 一 及 ， 那 么 Hessian 
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和 抢 阵 的 大 小 是 交 x7m。 在 典型 的 深度 学 习 应 用 中 ,7 将 是 模型 的 参数 数量 ， 可 能 很 容 
易 达 到 数 十 亿 。 因 此 ， 完 整 的 Hessian 矩阵 甚至 不 能 表示 。 

典型 的 深度 学 习 方 法 是 使 用 Krylov 方法 (Krylov method )， 而 不 是 显 式 地 计 
算 Hessian 2. Krylov 方法 是 用 于 执行 各 种 操作 的 一 组 迭代 技术 ， 这 些 操 作 包 括 
像 近似 求解 矩阵 的 着、 或 者 近似 和 矩阵 的 特征 值 或 特征 向 量 等 ， 而 不 使 用 矩阵 -向 量 乘 
法 以 外 的 任何 操作 。 

为 了 在 Hesssian 矩阵 上 使 用 Krylov 方法 ， 我 们 只 需要 能 够 计算 Hessian ABBA: 
H 和 一 个 任意 向 量 v 间 的 乘积 即 可 。 实 现 这 一 目标 的 一 种 直观 方法 (Christianson, 
1992) 是 








Hv = V, ((Vsf(z))! v]. (6.59) 


该 表达 式 中 两 个 梯度 的 计算 都 可 以 由 适当 的 软件 库 自 动 完 成 。 注 意 ， 外 部 梯度 表达 
式 是 内 部 梯度 表达 式 的 函数 的 梯度 。 

如 果 v 本身 是 由 计算 图 产生 的 一 个 向 量 ， 那 么 重要 的 是 指定 自动 微分 软件 不 要 
对 产生 v 的 图 进行 微分 。 

虽然 计算 Hessian 通常 是 不 可 取 的 ， 但 是 可 以 使 用 Hessian 向 量 积 。 可 以 对 
所 有 的 i = 1,...,n 简单 地 计算 He?, Kp eO 是 e(? = 1 并 且 其 他 元 素 都 为 0 
的 one-hot 癌 量 。 


6.6 ”历史 小 记 


前 馈 网 络 可 以 被 视 为 一 种 高 效 的 非 线性 函数 近似 器 ， 它 以 使 用 梯度 下 降 来 最 小 
化 函数 近似 误差 为 基础 。 从 这 个 角度 来 看 ， 现 代 前 馈 网 络 是 一 般 函 数 近似 任务 的 几 
个 世纪 进步 的 结晶 。 

处 于 反 向 传播 算法 底层 的 链 式 法 则 是 17 世纪 发 明 的 (Leibniz, 1676; L'Hópital, 
1696)。 微 积分 和 代数 长 期 以 来 被 用 于 求解 优化 问题 的 封闭 形式 , 但 梯度 下 降 直到 19 
世纪 才 作 为 优化 问题 的 一 种 迭代 近似 的 求解 方法 被 引入 (Cauchy, 1847)。 

从 20 世纪 40 年 代 开 始 ， 这 些 函 数 近似 技术 被 用 于 导出 诸如 感知 机 的 机 器 学 习 
模型 。 然 而 ， 最 早 的 模型 都 是 基于 线性 模型 。 来 自 包括 Marvin Minsky 的 批评 指出 
了 线性 模型 族 的 几 个 缺陷 , 例如 它 无 法 学 习 XOR 函数 , 这 导致 了 对 整个 神经 网 络 方 
法 的 抵制 。 
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学 习 非 线性 函数 需要 多 层 感知 机 的 发 展 和 计算 该 模型 梯度 的 方法 。 基 于 动态 规 
划 的 链 式 法 则 的 高 效应 用 开始 出 现在 20 世纪 60 年 代 和 70 年 代 ， 主 要 用 于 控制 领 
域 (Kelley, 1960; Bryson and Denham, 1961; Dreyfus, 1962; Bryson and Ho, 1969; 
Dreyfus, 1973), 4E HT 33 E 47 (Linnainmaa, 1976), Werbos (1981) 提出 应 用 这 
些 技术 来 训练 人 工 神 经 网 络 。 这 个 想法 以 不 同 的 方式 被 独立 地 重新 发 现 后 (LeCun, 
1985; Parker, 1985; Rumelhart et al., 1986a)， 最 终 在 实践 中 得 以 发 展 。 并 行 分 布 式 
处 理 (Parallel Distributed Processing ) 一 书 在 其 中 一 章 提 供 了 第 一 次 成 功 使 用 反 向 
传播 的 一 些 实验 的 结果 (Rumelhart et al., 1986b)， 这 对 反 向 传播 的 普及 做 出 了 巨大 
的 贡献 ， 并 且 开 启 了 一 个 研究 多 层 神经 网 络 非常 活跃 的 时 期 。 然 而 ， 该 书 作 者 提出 
的 想法 ,特别 是 Rumelhart 和 Hinton 提出 的 想法 远 远 超过 了 反 向 传播 。 它 们 包括 一 
些 关 键 思想 ， 关 于 可 能 通过 计算 实现 认 知 和 学 习 的 几 个 核心 方面 ， 后 来 被 冠 以 “ HX 
结 主义 ”的 名 称 ， 因 为 它 强调 了 神经 元 之 间 的 连接 作为 学 习 和 记忆 的 轨迹 的 重要 性 。 
特别 地 ， 这 些 想 法 包括 分 布 式 表示 的 概念 (Hinton et al., 1986)。 

在 反 向 传播 的 成 功 之 后 ， 神 经 网 络 人 研究 获得 了 普及 ， 并 在 20 世纪 90 年 代 初 达 
到 高 峰 。 随 后 ， 其 他 机 器 学 习 技 术 变 得 更 受 欢迎 ， 直 到 2006 年 开始 的 现代 深度 学 习 
复兴 。 

现代 前 馈 网 络 的 核心 思想 自 20 世纪 80 年 代 以 来 没有 发 牛 重大 变化 。 仍 然 使 用 
相同 的 反 向 传播 算法 和 相同 的 梯度 下 降 方 法 。1986 年 至 2015 年 神经 网 络 性 能 的 大 
部 分 改进 可 归 因 于 两 个 因素 。 首 先 ， 较 大 的 数据 集 减 少 了 统计 泛 化 对 神经 网 络 的 挑 
战 的 程度 。 第 二 ， 神 经 网 络 由 于 更 强大 的 计算 机 和 更 好 的 软件 基础 设施 已 经 变 得 更 
大 。 然 而 ， 少 量 算法 上 的 变化 也 显著 改善 了 神经 网 络 的 性 能 。 

其 中 一 个 算法 上 的 变化 是 用 损失 函数 的 交 又 炉 族 蔡 代 均 方 误差 。 均 方 误差 在 20 
世纪 80 年 代 和 90 年代 流 行 , 但 逐渐 被 交 又 炉 损失 替代 , 并 且 最 大 似 然 原 理 的 想法 在 
统计 学 界 和 机 器 学 习 界 之 间 广 泛 传播 。 使 用 交叉 信 损 失 大 大 提高 了 具有 sigmoid 和 
softmax 输出 的 模型 的 性 能 ， 而 当 使 用 均 方 误差 损失 时 会 存在 饱和 和 学 习 缓 慢 的 问 


题 。 

















另 一 个 显 埋 改善 前 馈 网 络 性 能 的 算法 上 的 主要 变化 是 使 用 分 段 线性 隐藏 单元 来 
替代 sigmoid 隐藏 单元 ， 例 如 用 整流 线性 单元 。 使 用 max{0, >} 函数 的 整流 在 早期 
神经 网 络 中 已 经 被 引入 ， 并 且 至 少 可 以 追溯 到 认 知 机 〈Cognitron ) 和 神经 认 知 机 
(Neocognitron)(Fukushima, 1975, 1980)。 这 些 早期 的 模型 没有 使 用 整流 线性 单元 ， 
而 是 将 整流 用 于 非 线 性 函数 。 尽 管 整流 在 早期 很 普及 ， 在 20 世纪 80 年 代 ， 整 流 很 
大 程度 上 被 sigmoid 所 取代 ， 也 许 是 因为 当 神 经 网 络 非常 小 时 ，sigmoid 表现 更 好 。 
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到 21 世纪 初 ， 由 于 有 些 迷 信 的 观念 ， 认 为 必须 避免 具有 不 可 导 点 的 激活 函数 ， 所 
以 避免 了 整流 线性 单元 。 这 在 2009 年 开始 发 生 改 变 。Jarrett et al. (2009b) 观察 到 ， 
在 神经 网 络 结构 设计 的 几 个 不 同 因素 中 “使 用 整流 非 线性 是 提高 识别 系统 性 能 的 最 
重要 的 唯一 因素 ”。 

对 于 小 的 数据 集 ，Jarrett et al. (2009b) 观察 到 ， 使 用 整流 非 线性 甚至 比 学习 隐 
藏 层 的 权重 值 更 加 重要 。 随 机 的 权重 足以 通过 整流 网 络 传播 有 用 的 信息 ， 人 允许 在 顶 
部 的 分 类 器 层 学 习 如 何 将 不 同 的 特征 向 量 映射 到 类 标识 。 

当 有 更 多 数据 可 用 时 ， 学 习 开 始 提取 足够 的 有 用 知识 来 超越 随机 选择 参数 的 性 
能 。Glorot et al. (2011a) 说 明 ， 在 深度 整流 网 络 中 的 学 习 比 在 激活 函数 具有 曲率 或 
两 侧 饱 和 的 深度 网 络 中 的 学 习 更 容易 。 

整流 线性 单元 还 具有 历史 意义 ， 因 为 它们 表明 神经 科学 继续 对 深度 学 习 算 法 的 
发 展 产 生 影响 。Glorot et al. (2011a) 从 生物 学 考虑 整流 线性 单元 的 导出 。 半 整流 非 
线性 旨 在 描述 生物 神经 元 的 这 些 性 质 : (1) 对 于 某 些 输入 ， 生 物 神 经 元 是 完全 不 活 
BRI, (2) 对 于 某 些 输入 ， 生 物 神 经 元 的 输出 和 它 的 输入 成 比例 。(3) 大 多 数 时 间 ， 
生物 神经 元 是 在 它们 不 活跃 的 状态 下 进行 操作 《〈 即 它们 应 该 具有 BRA (sparse 
activation ) )。 

“4 2006 年 深度 学 习 开 始 现代 复兴 时 ， 前 馈 网 络 仍然 有 不 良 的 声誉 。 从 2006 年 
至 2012 年 ， 人 们 普遍 认为 ， 前 馈 网 络 不 会 表现 良好 ,除非 它 们 得 到 其 他 模型 的 辅助 ， 
例如 概率 模型 。 现 在 已 经 知道 ,只 要 具备 适当 的 资源 和 工程 实践 ， 前 馈 网 络 表现 得 
非常 好 。 今 天， 前 馈 网 络 中 基于 梯度 的 学 习 被 用 作 发 展 概率 模型 的 工具 ， 例 如 第 二 
十 章 中 描述 的 变 分 自 编 码 器 和 生成 式 对 抗 网 络 。 前 馈 网 络 中 基于 梯度 的 学 习 自 2012 
年 以 来 一 直 被 视 为 一 种 强大 的 技术 ， 并 应 用 于 许多 其 他 机 器 学 习 任 务 ， 而 不 是 被 视 
为 必须 由 其 他 技术 支持 的 不 可 靠 技 术 。 在 2006 年 ， 业 内 使 用 无 监督 学 习 来 支持 监督 
学 习 ， 现 在 更 讽刺 的 是 ， 更 常见 的 是 使 用 监督 学 习 来 支持 无 监督 学 习 。 

前 馈 网 络 还 有 许多 未 实现 的 潜力 。 示 来， 我们 期 望 它们 用 于 更 多 的 任务 ， 优 化 
算法 和 模型 设计 的 进步 将 进一步 提高 它们 的 性 能 。 本 章 主要 描述 了 神经 网 络 模 型 族 。 
在 接 下 来 的 章节 中 ， 我 们 将 讨论 如 何 使 用 这 些 模 型 一 一 如 何 对 它们 进行 正则 化 和 训 
练 。 
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机 器 学 习 中 的 一 个 核心 问题 是 设计 不 仅 在 训练 数据 上 表现 好 ， 并 且 能 在 新 输入 
上 汉化 好 的 算法 。 在 机 器 学 习 中 ， 许 多 策略 显 式 地 被 设计 为 减少 测试 误差 ( 可 能 会 
以 增 大 训练 误差 为 代价 )。 这 些 策 略 被 统称 为 正则 化 。 我 们 将 在 后 文 看 到 ， 深 度 学 
习 工 作者 可 以 使 用 许多 不 同形 式 的 正则 化 策略 。 事 实 上 ， 开 发 更 有 效 的 正则 化 策略 
已 成 为 本 领域 的 主要 研究 工作 之 一 。 

第 五 章 介 绍 了 泛 化 、 从 拟 合 、 过 拟 合 、 侦 差 、 方 差 和 正则 化 的 基本 概念 。 如 果 你 
不 熟悉 这 些 概念 ， 请 参考 该 章节 再 继续 阅读 本 章 。 

在 本 章 中 ,我们 会 更 详细 地 介绍 正则 化 ， 重 点 介绍 深度 模型 ( 或 组 成 深度 模型 
的 模块 ) 的 正则 化 策略 。 

本 章 中 的 某 些 章节 涉及 机 器 学 习 中 的 标准 概念 。 如 果 你 已 经 熟悉 了 这 些 概念 ， 
可 以 随意 跳 过 相关 章节 。 然 而 ， 本 章 的 大 多 数 内 容 涉 及 这 些 基本 概念 在 特定 神经 网 
络 中 的 扩展 概念 。 

在 第 5.2.2 节 中 ， 我 们 将 正则 化 定义 为 “对 学 习 算法 的 修改 一 一 旨 在 减少 泛 化 误 
差 而 不 是 训练 误差 ”。 目 前 有 许多 正则 化 策略 。 有 些 策略 向 机 器 学 习 模 型 添加 限制 参 
数 的 额外 约束 。 有 些 策略 向 目标 函数 增加 参数 值 软 约束 的 额外 项 。 如 果 我 们 仔细 选 
择 ， 这 些 额 外 的 约束 和 惩罚 可 以 改善 模型 在 测试 集 上 的 表现 。 有 时 候 ， 这 些 约 束 和 
惩罚 被 设计 为 编码 特定 类 型 的 先 验 知识 ; 其 他 时 候 ， 这 些 约束 和 惩罚 被 设计 为 修好 
简单 模型 ， 以 便 提 高 泛 化 能 力 。 有 时 ,惩罚 和 约束 对 于 确定 从 定 的 问题 是 必要 的 。 其 
他 形式 的 正则 化 〈 如 集成 方法 ) 结合 多 个 假说 来 解释 训练 数据 。 

在 深度 学 习 的 背景 下 ， 大 多 数 正 则 化 策略 都 会 对 佑 计 进 行 正则 化 。 佑 计 的 正则 
化 以 偏差 的 增加 换取 方差 的 减少 。 一 个 有 效 的 正则 化 是 有 利 的 “交易 ”*”， 也 就 是 能 ! 
著 减 少 方差 而 不 过 度 增 加 偏差 。 我 们 在 第 五 章 中 讨论 泛 化 和 过 拟 合 时 ， 主 要 侧重 模 
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型 族 训练 的 3 个 情形 ，( 1 ) 不 包括 真实 的 数据 生成 过 程 一 一 对 应 欠 拟 合 和 含有 偏 
差 的 情况 ，( 2 ) 匹配 真实 数据 生成 过 程 ，( 3 ) 除了 包括 真实 的 数据 生成 过 程 ， 还 包 
括 许多 其 他 可 能 的 生成 过 程 一 方差 (而 不 是 偏差 ) 主导 的 过 拟 合 。 正 则 化 的 目标 
是 使 模型 从 第 三 种 情况 转化 为 第 二 种 情况 。 

在 实践 中 ， 过 于 复杂 的 模型 族 不 一 定 包括 目标 函数 或 真实 数据 生成 过 程 ， 甚 至 
也 不 包括 近似 过 程 。 我 们 几乎 从 未 知晓 真实 数据 的 生成 过 程 ， 所 以 我 们 永远 不 知道 
被 估计 的 模型 族 是 否 包括 生成 过 程 。 然 而 ， 深 度 学 习 算法 的 大 多 数 应 用 都 是 针对 这 
样 的 情况 ， 其 中 真实 数据 的 生成 过 程 几乎 肯定 在 模型 族 之 外 。 深 度 学 习 算法 通常 应 
用 于 极为 复杂 的 领域 ， 如 图 像 、 音 频 序 列 和 文本 ， 本 质 上 这 些 领域 的 真实 生成 过 程 
涉及 模拟 整个 宇宙 。 从 某 种 程度 上 说 ， 我 们 总 是 持 方 栅 (数据 生成 过 程 ) MKAA 
A (我 们 的 模型 族 )。 

这 意味 着 控制 模型 的 复杂 度 不 是 找到 合适 规模 的 模型 ( 带 有 正确 的 参数 个 数 ) 
这 样 一 个 简单 的 事情 。 相 反 ， 我 们 可 能 会 发 现 ， 或 者 说 在 实际 的 深度 学 习 场景 中 我 
们 几乎 总 是 会 发 现 ， 最 好 的 拟 合 模型 (从 最 小 化 泛 化 误差 的 意义 上 ) 是 一 个 适当 正 
则 化 的 大 型 模型 。 

现在 我 们 回顾 几 种 策略 ， 以 创建 这 些 正则 化 的 大 型 深度 模型 。 









































正则 化 在 深度 学 习 的 出 现 前 就 已 经 被 使 用 了 数 十 年 。 线 性 模型 ,如 线性 回归 和 逮 
号 回归 可 以 使 用 简单 、 直 接 、 有 效 的 正则 化 策略 。 

许多 正则 化 方法 通过 对 目标 函数 J 添加 一 个 参数 范 数 惩罚 Q(9)， 限 制 模型 
( 如 神经 网 络 、 线 性 回归 或 逻辑 回归 ) 的 学 习 能 力 。 我 们 将 正则 化 后 的 目标 函数 记 为 
J: 





E 




















J(0; X, y) = J(6; X, y) + o9 (0), (7.1) 

其 中 a € [0,co) 是 权衡 范 数 惩罚 项 O 和 标准 目标 函数 J (X; 0). 相对 贡献 的 超 参 数 。 
将 a 设 为 0 表示 没有 正则 化 。a 越 大 ， 对 应 正则 化 惩罚 越 大 。 

当 我 们 的 训练 算法 最 小 化 正则 化 后 的 目标 函数 J 时 ， 它 会 降低 原始 目标 J 关于 

训练 数据 的 误差 并 同时 减 小 参数 9 的 规模 ( 或 在 某 些 衡量 下 参数 子 集 的 规模 )。 选 择 

不 同 的 参数 范 数 O 会 偏好 不 同 的 解法 。 在 本 节 中 ， 我 们 会 讨论 各 种 范 数 惩 罚 对 模型 
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的 影响 。 

在 探究 不 同 范 数 的 正则 化 表现 之 前 ， 我 们 需要 说 明 一 下 ， 在 神经 网 络 中 我 们 通 
常 只 对 每 一 层 仿 射 变换 的 权重 做 惩罚 而 不 对 偏 置 做 正则 惩罚 。 精 确 拟 合 偏 置 所 需 的 
数据 通常 比拟 合 权重 少 得 多 。 每 个 权重 会 指定 两 个 变量 如 何 相 互 作用 。 我 们 需要 在 
各 种 条 件 下 观察 这 两 个 变量 才能 良好 地 拟 合 权重 。 而 每 个 仿 置 仅 控制 一 个 单 变量 。 
这 意味 着 ,我 们 不 对 其 进行 正则 化 也 不 会 导致 太 大 的 方差 。 另外， 正则 化 偏 置 参数 
可 能 会 导致 明显 的 欠 拟 合 。 因 此 ， 我 们 使 用 向 量 w 表示 所 有 应 受 范 数 惩罚 影响 的 权 
重 ， 而 向 量 0 表示 所 有 参数 (包括 w 和 无 需 正则 化 的 参数 )。 

在 神经 网 络 的 情况 下 ， 有 时 希望 对 网 络 的 每 一 层 使 用 单独 的 惩罚 ， 并 分 配 不 同 
的 o 系数 。 拟 合 多 个 超 参数 的 代价 很 大 ， 因 此 为 了 减少 搜索 空间 ， 我 们 会 在 所 有 层 
使 用 相同 的 权重 衰减 。 






























































7.1.1 IL? 参数 正则 化 








在 第 5.2 节 中 我 们 已 经 看 到 过 最 简单 和 最 常见 的 参数 范 数 惩罚 , 即 通常 被 称 为 权 
BRM (weight decay ) 的 L? 参数 范 数 惩罚 。 这 个 正则 化 策略 通过 向 目标 函数 添加 
一 个 正则 项 Q(9) = 3 wli, 使 权重 更 加 接近 原点 1!。 在 其 他 学 术 圈 ，L? 也 被 称 为 崔 
回归 或 Tikhonov 正则 。 


我 们 可 以 通过 研究 正则 化 化 后 目标 函数 的 梯度 ， 洞 察 一 些 权 重 衰减 的 正则 化 表 
现 。 为 了 简单 起 见 ， 我 们 假定 其 中 没有 偏 置 参数 ， 因 此 9 就 是 w。 这 样 一 个 模型 具 

















有 以 下 总 的 目标 函数 : 
Jew; X, y) = Sw" w+ J(w; X. y), (7.2) 
与 之 对 应 的 梯度 为 
Vw) (w; X, y) = aw + VJ(w; X, y). (7.3) 


使 用 单 步 梯 度 下 降 更 新 权重 ， 即 执行 以 下 更 新 : 








w <+ w-— e(ow 4- VyJ(w; X, y)). (7.4) 








:更 一 般 地 ， 我 们 可 以 将 参数 正则 化 为 接近 空间 中 的 任意 特定 点 ， 令 人 惊讶 的 是 这 样 也 仍 有 正则 化 效果 ， 但 是 特定 
点 越 接近 真实 值 结果 越 好 。 当 我 们 不 知道 正确 的 值 应 该 是 正 还 是 负 时 ， 零 是 有 意义 的 默认 值 。 巾 于 模型 参数 正则 化 为 
零 的 情况 更 为 常见 ， 我 们 将 只 探讨 这 种 特殊 情况 。 
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换 种 写法 就 是 : 
w + (1 — ea)w — eV „J (w; X, y). (7.5) 





我 们 可 以 看 到 , 加 入 权重 衰减 后 会 引起 学 习 规 则 的 修改 , 即 在 每 步 执行 通常 的 梯度 更 
新 之 前 先 收缩 权重 向 量 ( 将 权重 向 量 乘 以 一 个 常数 因子 )。 这 是 单个 步 又 发 生 的 变 
化 。 但 是 ， 在 训练 的 整个 过 程 会 发 生 什么 呢 ? 

我 们 进一步 简化 分 析 ， 令 w* 为 不 含 正 则 化 的 目标 函数 取得 最 小 训练 误差 时 的 
权重 向 量 , BD w = arg minw J(w), IEE w* 的 邻 域 对 目标 函数 做 二 次 近似 。 如 果 目 
标 函 数 确实 是 二 次 的 (如 以 均 方 误差 拟 合 线性 回归 模型 的 情况 )， 则 该 近似 是 完美 的 。 
近似 的 j(9) 如 下 








J(8) = Jw) + iw- PDH w — Ww"), (7.6) 
其 中 五 是 J 在 w 处 计算 的 Hessian 矩阵 (关于 w)。 因 为 w 被 定义 为 最 优 ， 即 梯 
度 消失 为 0， 所 以 该 二 次 近似 中 没有 一 阶 项 。 同 样 地 ， 因 为 w 是 J 的 一 个 最 优点 ， 
我 们 可 以 得 出 五 是 半 正 定 的 结论 。 

MJ 取得 最 小 时 ， 其 梯度 

Vad (w) = H(w-— w) (7.7) 

为 0。 

为 了 研究 权重 衰减 带 来 的 影响 ,我 们 在 式 (7.7) 中 添加 权重 衰减 的 梯度 。 现 在 我 
们 探讨 最 小 化 含有 正则 化 的 7。 我 们 使 用 变量 do 表示 此 时 的 最 优点 : 


aw + H(i — w*) =0 (7.8) 
(H+ oI)à = Hw (7.9) 
w= (Hal) ! Hw (7.10) 


当 a 趋向 于 0 时， 正则 化 的 解 do 会 趋向 wo 那么 当 a 增加 时 会 发 生 什 么 呢 ? 
因为 五 是 实 对 称 的 ， 所 以 我 们 可 以 将 其 分 解 为 一 个 对 角 和 矩 阵 A 和 一 组 特征 向 量 的 
标准 正 交 基 Q, FH HA H= QAQ'. 将 其 应 用 于 式 (7.10) 可 得 : 


= (QAQ' +aD QAQ w (7.11) 
=[Q(A+aDQ] QAQ" u" (7.12) 
= Q(A - o1)! AQ' u. (7.13) 
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我 们 可 以 看 到 权重 衰减 的 效果 是 沿 着 由 五 的 特征 向 量 所 定义 的 轴 缩 放 w*。 具 体 来 
Bi, FAN AL 因子 缩放 与 五 第 i 个 特征 向 量 对 齐 的 wh 的 分 量 。 (不 妨 查 
看 图 2.3 回顾 这 种 缩放 的 原理 )。 

沿 着 五 特 征 值 较 大 的 方向 (如 入 > ao) 正则 化 的 影响 较 小 。 而 A; << a 的 分 量 将 
会 收缩 到 几乎 为 零 。 这 种 效应 如 图 7.1 所 示 。 











图 7.1: L? (或 权重 衰减 ) 正则 化 对 最 佳 wo 值 的 影响 。 实 线 椭圆 表示 没有 正则 化 目标 的 等 值 线 。 虚 
线 圆圈 表示 L? 正则 化 项 的 等 值 线 。 在 do 点, 这 两 个 竞争 目标 达到 平衡 。 目标 函数 J 的 Hessian 的 
第 一 维特 征 值 很 小 。 当 从 w* 水 平移 动 时 ,目标 函数 不 会 增加 得 太 多 。 因 为 目标 函数 对 这 个 方向 没 
有 强烈 的 偏好 ， 所 以 正则 化 项 对 该 轴 具 有 强烈 的 影响 。 正 则 化 项 将 wi 拉 向 零 。 而 目标 函数 对 沿 着 
第 二 维 远离 w* 的 移动 非常 敏感 。 对 应 的 特征 值 较 大 ， 表 示 高 曲率 。 因 此 ， 权 重 衰减 对 wa 的 位 置 
影响 相对 较 小 。 
























































只 有 在 显著 减 小 目标 函数 方向 上 的 参数 会 保留 得 相对 完好 。 在 无 助 于 目标 函 
数 减 小 的 方向 ( 对 应 Hessian 和 矩阵 较 小 的 特征 值 ) 上 改变 参数 不 会 显著 增加 梯度 。 这 
种 不 重要 方向 对 应 的 分 量 会 在 训练 过 程 中 因 正 则 化 而 衰减 掉 。 

目前 为 止 ， 我们 讨论 了 权重 衰减 对 优化 一 个 抽象 通用 的 二 次 代价 函数 的 影响 。 
这 些 影响 具体 是 怎么 和 机 需 学 习 关 联 的 呢 ? 我 们 可 以 研究 线性 回归 ， 它 的 真实 代价 
函数 是 二 次 的 ， 因 此 我 们 可 以 使 用 相同 的 方法 分 析 。 再 次 应 用 分 析 ， 我 们 会 在 这 种 
情况 下 得 到 相同 的 结果 ， 但 这 次 我 们 使 用 训练 数据 的 术语 表述 。 线 性 回归 的 代价 函 
数 是 平方 误差 之 和 : 











(Xw-— y)! (Xw — y). (7.14) 
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我 们 添加 L? 正则 项 后 ， 目 标 函 数 变 为 


Cn ae Law w. (7.15) 
这 将 普通 方程 的 解 从 
-(X'X)'X'y (7.16) 
变 为 
— (X' X al) 1X! y. (7.17) 


式 (7.16) 中 的 矩阵 X' X 与 协 方差 矩阵 LX X 成 正比 。L? 正则 项 将 这 个 矩阵 殖 换 
为 式 (7.17) 中 的 (X! Xon! 这 个 新 矩阵 与 原来 的 是 一 样 的 ， 不 同 的 仅仅 是 在 对 
角 加 了 ao 这 个 和 矩阵 的 对 角 项 对 应 每 个 输入 特征 的 方差 。 我 们 可 以 看 到 ， 三 正则 化 能 
让 学 习 算法 “感知 ”到 具有 较 高 方差 的 输入 z， 因 此 与 输出 目标 的 协 方差 较 小 (相对 
增加 方差 ) 的 特征 的 权重 将 会 收缩 。 





7.1.2 L! 参数 正则 化 














蕊 权重 衰减 是 权重 衰减 最 常见 的 形式 ， 我 们 还 可 以 使 用 其 他 的 方法 限制 模型 
数 的 规模 。 比 如 我 们 还 可 以 使 用 LI 正则 化 。 


形式 地 ， 对 模型 参数 w 的 如 正则 化 被 定义 为 : 
三 ju 全 二 2 lwil (7.18) 


即 各 个 参数 的 绝对 值 之 和 ?。 接 着 我 们 将 讨论 瑟 正 则 化 对 简单 线性 回归 模型 的 影响 ， 
与 分 析 天 正则 化 时 一 样 不 考虑 俩 置 参数 。 我 们 尤其 感 兴趣 的 是 找 出 L! 和 天 正则 
化 之 间 的 差异 。 与 到 权重 衰减 类 似 ， 我 们 也 可 以 通过 缩放 惩罚 项 0 的 正 超 参数 a 
来 控制 二 权重 衰减 的 强度 。 因 此 ， 正 则 化 的 目标 函数 J (w; X, y) 如 下 所 示 


J(w; X, y) = allw + J(w; X, y), (7.19) 


对 应 的 梯度 (实际 上 是 次 梯度 ): 











Vw (w; X, y) = osign(w) + VJ (w; X, y), (7.20) 





2 如 同 正则 化 ， 我 们 能 将 参数 正则 化 到 其 他 非 零 值 ww, CERCA, LEME AS AA E Ay 
Q(0) = ||w — wo = 35, |w; — wf?|. 
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其 中 sign(w) 只 是 简单 地 取 w 各 个 元 素 的 正 负 号 。 

观察 式 (7.20) ， 我 们 立刻 发 现 L 的 正则 化 效果 与 L 大 不 一 样 。 具 体 来 说 ， 我 
们 可 以 看 到 正则 化 对 梯度 的 影响 不 再 是 线性 地 缩放 每 个 wis 而 是 添加 了 一 项 与 
sign(w;) 同 号 的 常数 。 使 用 这 种 形式 的 梯度 之 后 ， 我 们 不 一 定 能 得 到 J(X, y; w) 二 
次 近似 的 直接 算术 解 〈 玫 正则 化 时 可 以 )。 

简单 线性 模型 具有 二 次 代价 函数 ， 我 们 可 以 通过 泰勒 级 数 表示 。 或 者 我 们 可 以 
设想 ， 这 是 逼近 更 复杂 模型 的 代价 函数 的 截断 泰勒 级 数 。 在 这 个 设 定 下 ， 梯 度 由 下 
式 给 出 


Vwd (w) = H(w— u”), (7.21) 


E, HÆ JE w 人 处 的 Hessian 算 阵 (关于 内 )。 

由 于 L 惩罚 项 在 满 的 、 一 般 的 Hessian 的 情况 下 ,无 法 得 到 直接 清晰 的 代数 表 
iX, 因此 我 们 将 进一步 简化 假设 Hessian 是 对 角 的 , BI H = diag([Hi1,...,Hnnl), 
其 中 每 个 Hii > 0。 如 果 线 性 回归 问题 中 的 数据 已 被 预 处 理 ( 如 可 以 使 用 PCA), 去 
除了 输入 特征 之 间 的 相关 性 ， 那 么 这 一 假设 成 立 。 

我 们 可 以 将 姜 正 则 化 目标 函数 的 二 次 近似 分 解 成 关于 参数 的 求 和 : 





fw; X; y) = J(w*; X, y) + > 





1 
3 Hiitwi 一 wr + sni . (7.22) 


如 下 列 形式 的 解析 人 解 ( 对 每 一 维 i) 可 以 最 小 化 这 个 近似 代价 函数 : 


w; = sign(w;) max (uz | 一 zo (7.23) 


考虑 所 有 i ws > 0 的 情形 ,会 有 两 种 可 能 输出 : 
1. RE zn. 的 情况 。 正 则 化 后 目标 中 的 w: 最 优 值 是 wi = 0。 这 是 因为 在 方向 i 
上 JG» X, y) XJ 7(w; X, y) 的 贡献 受到 抑制 ，L! 正 则 化 项 将 w; 推 向 0。 


2. wh > is 的 情况 。 在 这 种 情况 下 ， 正 则 化 不 会 将 wi 的 最 优 值 推 向 0， 而 仅仅 
在 那个 方向 上 移动 se 的 距离。 








wi < 0 的 情况 与 之 类 似 , 但 是 L^ 惩罚 项 使 wi 更 接近 0( 增 加 a) 或 者 为 0。 


FALE PENI, DMEM ozs ^E S FRE (sparse) AY ARE. JE Ri DETS AY Je 
最 优 值 中 的 一 些 参数 为 0。 和 LENEA, L'aE IH LERST LEE RUR Is RBS AP In] 
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式 (7.13) 给 出 了 如 正则 化 的 解 如 。 如 果 我 们 使 用 Hessian EE H 为 对 角 正 定 算 阵 
的 假设 (与 如 正 则 化 分 析 时 一 样 )， 重 新 考虑 这 个 等 式 ， 我 们 发 现 好 = 元 ty 
如 果 wi 不 是 零 , 那么 w 也 会 保持 非 零 。 这 表明 殊 正 则 化 不 会 使 参数 变 ME. mi 
万 正则 化 有 可 能 通过 足够 大 的 a SMT 


由 姜 正 则 化 导出 的 稀 玻 性 质 已 经 被 广泛 地 用 于 特征 选择 (feature selection ) 机 
制 。 特 征 选择 从 可 用 的 特征 子 集 选 择 出 有 意义 的 特征 ， 化 简 机 器 学 习 问 题 。 若 名 的 
LASSO (Tibshirani, 1995) ( Least Absolute Shrinkage and Selection Operator ) 模 
型 将 LI 惩罚 和 线性 模型 结合 ， 并 使 用 最 小 二 乘 代 价 函 数 。L! 惩罚 使 部 分 子 集 的 权 
重 为 零 ， 表 明 相 应 的 特征 可 以 被 安全 地 忽略 。 

在 第 5.6.1 节 ， 我 们 看 到 许多 正则 化 策略 可 以 被 解释 为 MAP 贝 叶 斯 推断 ， 特 别 
是 天正 则 化 相当 于 权重 是 高 斯 先 验 的 MAP 贝 叶 斯 推断 。 对 于 LENE, AFEN 
化 代价 函数 的 惩罚 项 a (w) = a5, jw;| 与 通过 MAP 贝 叶 斯 推断 最 大 化 的 对 数 先 
验 项 是 等 价 的 (we R" 并 且 权 重 先 验 是 各 向 同性 的 拉 普 拉 斯 分 布 ( 式 (3.26) )): 


log p(w = 2log Laplace(w;; 0, *) = —a ||w||, +nloga— nlog2. (7.24) 

















因为 是 关于 w 最 大 化 进行 学 习 , 我 们 可 以 忽略 loga — log 2 项 ,因为 它们 与 w 无 关 。 


7.2 ”作为 约束 的 范 数 惩罚 


考虑 通过 参数 范 数 正则 化 的 代价 函数 : 
J(0; X, y) = J(0; X, y) + oQ(0). (7.25) 
回顾 第 4.4 节 我 们 可 以 构造 一 个 广义 Lagrange 函数 来 最 小 化 带 约 束 的 函数 ， 
即 在 原始 目标 函数 上 添加 一 系列 惩罚 项 。 每 个 惩罚 是 一 个 系数 之 间 的 乘积 ， 被 称 
Wy Karush- Kuhn- Tucker ( Karush-Kuhn-Tucker ) 乘 子 ， 以 及 一 个 表示 约束 是 否 
满足 的 函数 。 如 果 我 们 想 约 束 Q(9) 小 于 某 个 常数 上， 我 们 可 以 构建 广义 Lagrange 


£(0, o; X, y) = J(0; X, y) + o(Q(0) — k). (7.26) 


这 个 约束 问题 的 解 由 下 式 给 出 
0* = arg min max £(0, a). (7.27) 
0 a,a>0 
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如 第 4.4 节 中 描述 的 ， 解 决 这 个 问题 我 们 需要 同时 改变 9 和 a。 第 4.5 节 给 出 了 
一 个 带 L2 约束 的 线性 回归 实例 。 还 有 许多 不 同 的 优化 方法 ， 有 些 可 能 会 使 用 梯度 下 
降 而 其 他 可 能 会 使 用 梯度 为 0 的 解析 解 ， 但 在 所 有 程序 中 a 在 Q(0) > k 时 必须 增 
Wn. 在 Q(9) < k 时 必须 减 小 。 所 有 正 值 的 a 都 鼓励 Q(9) 收缩 。 最 优 值 a* 也 将 鼓 
励 UO 收缩 ， 但 不 会 像 Q(6) 小 于 大 时 那么 强烈 。 

为 了 洞察 约束 的 影响 ， 我 们 可 以 固定 o^, ， 把 这 个 问题 看 成 只 跟 9 有 关 的 函数 : 


0* = argmin £(0,0*) = argmin J(0; X, y) + o" Q(0). (7.28) 
e 8 


这 和 最 小 化 J 的 正则 化 训练 问题 是 完全 一 样 的 。 因 此 ， 我 们 可 以 把 参数 范 数 惩罚 看 
作对 权重 强加 的 约束 。 如 果 9 是 L? 范 数 ， 那么 权重 就 是 被 约束 在 一 个 L 球 中 。 如 
ALO. 是 DL 范 数 ,那么 权重 就 是 被 约束 在 一 个 L 范 数 限制 的 区 域 中 。 通 常 我 们 不 
知道 权重 衰减 系数 a* 约束 的 区 域 大 小 ， 因 为 a* 的 值 不 直接 告诉 我 们 的 值 。 原 则 
上 我 们 可 以 解 得 有, 但 有 和 a* 之 间 的 关系 取决 于 J 的 形式 。 虽 然 我 们 不 知道 约束 
区 域 的 确切 大 小 ， 但 我 们 可 以 通过 增加 或 者 减 小 a 来 大 致 扩大 或 收缩 约束 区 域 。 较 
大 的 a， 将 得 到 一 个 较 小 的 约束 区 域 。 较 小 的 a， 将 得 到 一 个 较 大 的 约束 区 域 。 

有 时 候 ， 我 们 和 希望 使 用 显 式 的 限制 ， 而 不 是 惩罚 。 如 第 4.4 节 所 述 ， 我 们 可 以 修 
改 下 降 算法 〈 如 随机 梯度 下 降 算 法 )， 使 其 先 计算 J(0) 的 下 降 步 ， 然 后 将 9 投影 到 
满足 Q(9) < k 的 最 近 点 。 如 果 我 们 知道 什么 样 的 k 是 合适 的 ， 而 不 想 花 时 间 寻 找 对 
应 于 此 天 处 的 o 值 ， 这 会 非常 有 用 。 

男 一 个 使 用 显 式 约束 和 重 投影 而 不 是 使 用 惩罚 强加 约束 的 原因 是 德 罚 可 能 会 导 
致 目标 函数 非 凸 而 使 算法 陷入 局 部 极 小 (对 应 于 小 的 8 )。 当 训练 神经 网 络 时 ， 这 通 
常 表现 为 训练 带 有 儿 个 “死亡 单元 ”的 神经 网 络 。 这 些 单元 不 会 对 网 络 学 到 的 函数 
有 大 大 影响 ， 因 为 进入 或 离开 它们 的 权重 都 非常 小 。 当 使 用 权重 范 数 的 惩罚 训练 时 ， 
即使 可 以 通过 增加 权重 以 显著 减少 J/， 这 些 配置 也 可 能 是 局 部 最 优 的 。 因 为 重 投影 
实现 的 显 式 约束 不 敦 励 权重 接近 原点 ， 所 以 在 这 些 情况 下 效果 更 好 。 通 过 重 投影 实 
现 的 显 式 约束 只 在 权重 变 大 并 试图 离开 限制 区 域 时 产生 作用 。 

最 后 ， 因 为 重 投影 的 显 式 约束 还 对 优化 过 程 增 加 了 一 定 的 稳定 性 ， 所 以 这 是 男 
一 个 好 处 。 当 使 用 较 高 的 学 习 率 时 , 很 可 能 进入 正 反 馈 ， 即 大 的 权重 诱导 大 梯度 ， 然 
后 使 得 权重 获得 较 大 更 新 。 如 果 这 些 更 新 持续 增加 权重 的 大 小 ，9 就 会 迅速 增 大 , EH 
到 离 原 点 很 远 而 发 生 淤 出 。 重 投影 的 显 式 约束 可 以 防止 这 种 反馈 环 引 起 权重 无 限制 
地 持续 增加 。Hinton et al. (2012b) 建议 结合 使 用 约束 和 高 学 习 速 率 ， 这 样 能 更 快 地 
探索 参数 空间 ， 并 保持 一 定 的 稳定 性 。 
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Hinton et al. (2012b) 尤其 推荐 由 Srebro and Shraibman (2005) 引入 的 策略 : 24 
东 神 经 网 络 层 的 权重 矩阵 每 列 的 范 数 ， 而 不 是 限制 整个 权重 和 矩阵 的 Frobenius 范 数 。 
分 别 限 制 每 一 列 的 范 数 可 以 防止 某 一 隐藏 单元 有 非常 大 的 权重 。 如 果 我 们 将 此 约束 
转换 成 Lagrange 函数 中 的 一 个 惩罚 ， 这 将 与 L? 权重 衰减 类 似 但 每 个 隐藏 单元 的 权 
重 都 具有 单独 的 KKT 乘 子 。 每 个 KKT 乘 子 分 别 会 被 动态 更 新 ， 以 使 每 个 隐藏 单 
元 服从 约束 。 在 实践 中 ， 列 范 数 的 限制 总 是 通过 重 投影 的 显 式 约束 来 实现 。 














7.3 ”正则 化 和 欠 约 束 问 题 


在 某 些 情况 下 ， 为 了 正确 定义 机 器 学 习 问 题 ， 正 则 化 是 必要 的 。 机 器 学 习 中 许 
多 线性 模型 ， 包 括 线性 回归 和 PCA, RTRA X X. HUE X' X 是 奇异 
的 ， 这 些 方法 就 会 失效 。 当 数据 生成 分 布 在 一 些 方向 上 确实 没有 差异 时 ， 或 因为 例 
子 较 少 ( 即 相对 输入 特征 CX 的 列 ) 来 说 ) 而 在 一 些 方向 上 没有 观察 到 方差 时 ， 这 
个 矩阵 就 是 奇异 的 。 在 这 种 情况 下 ， 正 则 化 的 许多 形式 对 应 求 逆 XTX + aT, 这 个 正 
则 化 矩阵 可 以 保证 是 可 逆 的 。 

相关 和 矩阵 可 逆 时 ， 这 些 线性 问题 有 闭 式 解 。 没 有 闭 式 解 的 问题 也 可 能 是 欠 定 的 。 
一 个 例子 是 应 用 于 线性 可 分 问题 的 逻辑 回归 。 如 果 权 重 向 量 w 能 够 实现 完美 分 类 ， 
那么 2w 也 会 以 较 高 似 然 实现 完美 分 类 。 类 似 随机 梯度 下 降 的 迭代 优化 算法 将 持续 
增加 w 的 大 小 ,理论 上 永远 不 会 停止 。 在 实践 中 ， 数 值 实现 的 梯度 下 降 最 终 会 达到 
导致 数值 溢出 的 超大 权重 ， 此 时 的 行为 将 取决 于 程序 员 如 何 处 理 这 些 不 是 真正 数字 
的 值 。 

大 多 数 形式 的 正则 化 能 够 保证 应 用 于 欠 定 问题 的 迭代 方法 收敛 。 例 如 ， 当 似 然 
的 斜率 等 于 权重 衰减 的 系数 时 ， 权 重 衰 减 将 阻止 梯度 下 降 继续 增加 权重 的 大 小 。 

使 用 正则 化 解决 从 定 问题 的 想法 超出 了 机 器 学 习 的 范畴 。 同 样 的 想法 在 几 个 基 
本 线性 代数 问题 中 也 非常 有 用 。 

正如 我 们 在 第 2.9 节 看 到 的 ， 我 们 可 以 使 用 Moore-Penrose 求解 欠 定 线性 方程 。 
回想 X fux XT 的 一 个 定义 : 











Xt= lim(X X + ol)X!. (7.29) 


现在 我 们 可 以 将 第 7.29 节 看 作 进行 具有 权重 衰减 的 线性 回归 。 有 具体 来 说 , 当 正 则 化 系 
数 趋 向 0 时 ， 式 (7.29) 是 式 (7.17) 的 极限 。 因 此 ， 我 们 可 以 将 伪 逆 解释 为 使 用 正则 
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7.4 ”数据 集 增强 


让 机 器 学 习 模 型 泛 化 得 更 好 的 最 好 办 法 是 使 用 更 多 的 数据 进行 训练 。 当 然 ， 在 
实践 中 ， 我 们 拥有 的 数据 量 是 很 有 限 的 。 解 决 这 个 问题 的 一 种 方法 是 创建 假 数 据 并 
添加 到 训练 集中 。 对 于 一 些 机 器 学 习 任 务 ， 创 建新 的 假 数 据 相 当 简 单 。 

对 分 类 来 说 这 种 方法 是 最 简单 的 。 分 类 器 需要 一 个 复杂 的 高 维 输入 z， 并 用 单 
个 类 别 标识 y 概括 z。 这 意味 着 分 类 面临 的 一 个 主要 任务 是 要 对 各 种 各 样 的 变换 保 
持 不 变 。 我 们 可 以 轻易 通过 转换 训练 集中 的 xz 来 生成 新 的 (z,y) Xo 

这 种 方法 对 于 其 他 许多 任务 来 说 并 不 那么 容易 。 例 如 ， 除 非 我 们 已 经 解决 了 密 
度 估计 问题 ， 和 否则 在 密度 估计 任务 中 生成 新 的 假 数 据 是 很 困难 的 。 

数据 集 增强 对 一 个 具体 的 分 类 问题 来 说 是 特别 有 效 的 方法 : 对 象 识别 。 图 像 是 
高 维 的 并 包括 各 种 巨大 的 变化 因素 ， 其 中 有 许多 可 以 轻易 地 模拟 。 即 使 模型 已 使 用 
卷 积 和 池 化 技术 (第 九 章 ) 对 部 分 平移 保持 不 变 ， 沿 训练 图 像 每 个 方向 平移 几 个 像 
素 的 操作 通常 可 以 大 大 改善 泛 化 。 许 多 其 他 操作 如 旋转 图 像 或 缩放 图 像 也 已 被 证 明 
非常 有 效 。 

我 们 必须 要 小 心 ， 不 能 使 用 会 改变 类 别 的 转换 。 例 如 ， 交 学 字符 识别 任务 需要 
认识 到 “b” 和 “qd” 以 及 “6” 和 “9” 的 区 别 ， 所 以 对 这 些 任务 来 说 ,水 平 翻转 和 旋转 
180° 并 不 是 合适 的 数据 集 增强 方式 。 

能 保持 我 们 希望 的 分 类 不 变 ， 但 不 容易 执行 的 转换 也 是 存在 的 。 例 如 ,平面 外 
绕 轴 转动 难以 通过 简单 的 几何 运算 在 输入 像素 上 实现 。 

数据 集 增强 对 语音 识别 任务 也 是 有 效 的 (Jaitly and Hinton, 2013)。 

在 神经 网 络 的 输入 层 注 入 噪声 (Sietsma and Dow, 1991) 也 可 以 被 看 作 是 数据 增 
强 的 一 种 方式 。 对 于 许多 分 类 甚至 一 些 回归 任务 而 言 ， 即 使 小 的 随机 噪声 被 加 到 输 
A, 任务 仍 应 该 是 能 够 被 解决 的 。 然 而 ， 神 经 网 络 被 证 明 对 噪声 不 是 非常 健壮 (Tang 
and Eliasmith，2010)。 改 善 神经 网 络 健壮 性 的 方法 之 一 是 简单 地 将 随机 噪声 添加 到 
输入 再 进行 训练 。 输 入 噪声 注入 是 一 些 无 监督 学 习 算法 的 一 部 分 ， 如 去 品 自 编码 
器 (Vincent et al., 2008a)。 向 隐藏 单元 施加 噪声 也 是 可 行 的 ,这 可 以 被 看 作 在 多 个 抽 
象 层 上 进行 的 数据 集 增强 。Poole et al. (2014) 最 近 表 明 ， 噪 声 的 幅度 被 细心 调整 后 ， 
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该 方法 是 非常 高 效 的 。 我 们 将 在 第 7.12 克 介绍 一 个 强大 的 正则 化 策略 Dropout， 该 
策略 可 以 被 看 作 是 通过 与 噪声 相 乘 构建 新 输入 的 过 程 。 

在 比较 机 天 学 习 基准 测试 的 结果 时 ， 考 虑 其 采取 的 数据 集 增强 是 很 重要 的 。 通 
常情 况 下 ， 人 工 设计 的 数据 集 增强 方案 可 以 大 大 减少 机 器 学 习 技 术 的 泛 化 误差 。 将 
一 个 机 顺 学 习 算 法 的 性 能 与 另 一 个 进行 对 比 时 ， 对 照 实验 是 必要 的 。 在 比较 机 顺 学 
习 算法 A 和 机 器 学 习 算法 B 时 ,应 该 确保 这 两 个 算法 使 用 同一 人 工 设 计 的 数据 集 增 
强 方案 进行 评 佑 。 假 设 算法 A 在 没有 数据 集 增强 时 表现 不 佳 , 而 B 结合 大 量 人 工 转 
换 的 数据 后 表现 良好 。 在 这 样 的 情况 下 ， 很 可 能 是 合成 转化 引起 了 性 能 改进 ， 而 不 
是 机 天 学 习 算 法 B 比 算法 A 更 好 。 有 时 候 ， 确 定 实验 是 否 已 经 适当 控制 需要 主观 
判断 。 例 如 ， 向 输入 注 和 人 噪声 的 机 天 学 习 算 法 是 执行 数据 集 增 强 的 一 种 形式 。 通 党 ， 
普 适 操作 ( 例如， 向 输入 添加 高 斯 噪声 ) 被 认为 是 机 带 学 习 算法 的 一 部 分 ， 而 特定 
于 一 个 应 用 领域 ( 如 随机 地 裁剪 图 像 ) 的 操作 被 认为 是 独立 的 预 处 理 步 又 。 








7.5 meee 


第 7.4 节 已 经 提出 将 噪声 作用 于 输入 , 作为 数据 集 增强 策略 。 对 于 某 些 模型 而 言 ， 
向 输入 添加 方差 极 小 的 噪声 等 价 于 对 权重 施加 范 数 惩罚 (Bishop, 1995a,b)。 在 一 般 情 
况 下 , 噪声 注入 远 比 简单 地 收缩 参数 强大 , 特别 是 噪声 被 添加 到 隐藏 单元 时 会 更 加 强 
大 。 回 隐藏 单元 添加 噪声 是 值得 单独 讨论 重要 的 话题 ; 在 第 7.12 节 所 述 Dropout 算 
法 是 这 种 做 法 的 主要 发 展 方向 。 

另 一 种 正则 化 模型 的 噪声 使 用 方式 是 将 其 加 到 的 权重 。 这 项 技术 主要 用 于 循环 
HAMA (Jim et al., 1996; Graves, 2011)。 这 可 以 被 解释 为 关于 权重 的 贝 叶 斯 推断 的 
随机 实现 。 贝 叶 斯 学 习 过 程 将 权重 视 为 不 确定 的 ， 并 且 可 以 通过 概率 分 布 表示 这 种 
不 确定 性 。 向 权重 添加 噪声 是 反映 这 种 不 确定 性 的 一 种 实用 的 随机 方法 。 

在 某 些 假设 下 ， 施 加 于 权重 的 噪声 可 以 被 解释 为 与 更 传统 的 正则 化 形式 等 同 ， 
鼓励 要 学 习 的 函数 保持 稳定 。 我 们 研究 回归 的 情形 ， 也 就 是 训练 将 一 组 特征 x 映射 
成 一 个 标量 的 函数 Q(m), ， 并 使 用 最 小 二 乘 代价 函 数 衡量 模型 预测 值 G(x) 与 真实 值 y 
的 误差 : 











J= En x,y) (9 (x) = y)’]. (7.30) 





训练 集 包含 m 对 标注 样 例 {(z00,g0)， (a0, y™) 
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现在 我 们 假设 对 每 个 输入 表示 ， 网 络 权 重 添加 随机 扰动 e, ~ N (50, nT). 2828 
我 们 有 一 个 标准 的 LE MLP. RAERD feyle) KEA REA, RI 
仍然 希望 减少 网 络 输出 误差 的 平方 。 因 此 目标 函数 变 为 : 


Jw = Ep(ay.ew)|Gew(®) 一 人 7] (7.31) 
= Ey(w,y,cw) [02 (7) — 2yGYew (x) 十 y’]. (7.32) 




















对 于 小 的 7， 最 小 化 带 权 重 噪声 (方差 为 nT ) 的 J 等 同 于 最 小 化 附加 正则 化 项 
的 J: Epen lll V w ON] 这 种 形式 的 正则 化 鼓励 参数 进入 权重 小 扰动 对 输出 相对 
影响 较 小 的 参数 空间 区 域 。 换 句 话 说 ， 它 推动 模型 进入 对 权重 小 的 变化 相对 不 敏感 
的 区 域 ， 找 到 的 点 不 只 是 极 小 点 ， 还 是 由 平坦 区 域 所 包围 的 最 小 点 (Hochreiter and 
Schmidhuber, 1995). 在 简化 的 线性 回归 中 (例如; g(a) = w'z 十 5)， 正 则 项 退化 为 
7 到 za 几 z| 门 ， 这 与 函数 的 参数 无 关 ， 因 此 不 会 对 .关于 模型 参数 的 梯度 有 影响 。 


























7.5.1 ”向 输出 目标 注入 噪声 


大 多 数 数据 集 的 y 标签 都 有 一 定 错误 。 错 误 的 y 不 利于 最 大 化 log p(y | x). 3 
免 这 种 情况 的 一 种 方法 是 显 式 地 对 标签 上 的 噪声 进行 建 模 。 例 如 , 我 们 可 以 假设 , 对 
于 一 些小 常数 e, 训练 集 标记 y 是 正确 的 概率 是 1 e, 以 的 概率 ) 任何 其 他 可 能 
的 标签 也 可 能 是 正确 的 。 这 个 假设 很 容易 就 能 解析 地 与 代价 函数 结合 ， 而 不 用 显 式 
地 抽取 噪声 样本 。 例 如 ， 标 签 平 滑 (label smoothing) 通过 把 确切 分 类 目标 从 0 和 
1 替换 成 M 1—e, 正则 化 具有 个 输出 的 softmax 函数 的 模型 。 标 准 交 又 炉 
损失 可 以 用 在 这 些 非 确 切 目标 的 输出 上 。 使 用 softmax 函数 和 明确 目标 的 最 大 似 然 
学 习 可 能 永远 不 会 收敛 一 一 softmax 函数 永远 无 法 真正 预测 0 概率 或 1 概率 ， 因 此 
它 会 继续 学 习 越 来 越 大 的 权重 ， 使 预测 更 极端 。 使 用 如 权重 衰减 等 其 他 正则 化 策略 
能 够 防止 这 种 情况 。 标 签 平滑 的 优势 是 能 够 防止 模型 追求 确切 概率 而 不 影响 模型 学 
习 正 确 分 类 。 这 种 策略 自 20 世纪 80 年 代 就 已 经 被 使 用 ， 并 在 现代 神经 网 络 继续 保 
持 显 著 特 色 (Szegedy et al., 2015)。 

















7.6 FREF 


在 半 监 督学 习 的 框架 下 ，P(x) 产生 的 未 标记 样本 和 P(x, y) 中 的 标记 样本 都 用 
于 估计 Ply | x) 或 者 根据 x 预测 y. 
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在 深度 学 习 的 背景 下 ， 半 监督 学 习 通 常 指 的 是 学 习 一 个 表示 h= f(z), FUR 
示 的 目的 是 使 相同 类 中 的 样本 有 类 似 的 表示 。 无 监督 学 习 可 以 为 如 何在 表示 空间 聚 
集 样 本 提供 有 用 线索 。 在 输入 空间 紧密 聚集 的 样本 应 该 被 映射 到 类 似 的 表示 。 在 许 
多 情况 下 ， 新 空间 上 的 线性 分 类 器 可 以 达到 较 好 的 泛 化 (Belkin and Niyogi, 2002; 
Chapelle et al., 2003)。 这 种 方法 的 一 个 经 典 变 种 是 使 用 主 成 分 分 析 作 为 分 类 前 (在 
投影 后 的 数据 上 分 类 ) 的 预 处 理 步 又 。 

我 们 可 以 构建 这 样 一 个 模型 ,其 中 生成 模型 P(x) 或 P(x,y) 与 判别 模型 P(y | x) 
共享 参数 ， 而 不 用 分 离 无 监督 和 监督 部 分 。 我 们 权衡 监督 模型 准则 — log Py | x) 
和 无 监督 或 生成 模型 准则 (如 — log P(x) 或 —log P(x,y) )。 生 成 模型 准则 表达 了 
对 监督 学 习 问 题解 的 特殊 形式 的 先 验 知识 (Lasserre et al., 2006)， 即 P(x) 的 结构 通 
过 某 种 共享 参数 的 方式 连接 到 P(y | x). 通过 控制 在 总 准则 中 的 生成 准则 , 我 们 可 以 
获得 比 纯 生 成 或 纯 判 别 训练 准则 更 好 的 权衡 (Lasserre et al., 2006; Larochelle et al., 
2008)。 


Salakhutdinov and Hinton (2008) 描述 了 一 种 学 习 回 归 核 机 器 中 核 函 数 的 方法 ， 
其 中 建 模 P(x) 时 使 用 的 未 标记 样本 大 大 提高 了 _P(y | x) 的 效果 。 
更 多 半 监 督学 习 的 信息 ， 请 参阅 Chapelle et al. (2006a). 











7.7 多 任务 学 习 


多 任务 学 习 (Caruana, 1993) 是 通过 合并 几 个 任务 中 的 样 例 〈 可 以 视 为 对 参数 
施加 的 软 约束 ) 来 提高 泛 化 的 一 种 方式 。 额 外 的 训练 样本 以 同样 的 方式 将 模型 的 参 
数 推 癌 泛 化 更 好 的 方向 ， 当 模型 的 一 部 分 在 任务 之 间 共 享 时 ， 模 型 的 这 一 部 分 更 多 
地 被 约束 为 良好 的 值 ( 假设 共享 是 合理 的 )， 往 往 能 更 好 地 泛 化 。 

图 7.2 展 示 了 多 任务 学 习 中 非常 普遍 的 一 种 形式 ， 其 中 不 同 的 监督 任务 ( 给 定 x 
fiM yO ) 共享 相同 的 输入 x 以 及 一 些 中 间 层 表示 hw*)， 能 学 习 共 同 的 因素 池 。 
该 模型 通常 可 以 分 为 两 类 相关 的 参数 : 


1. 具体 任务 的 参数 〈 只 能 从 各 自任 务 的 样本 中 实现 良好 的 泛 化 )。 如 图 7.2 中 的 上 
Es 


2. 所 有 任务 共享 的 通用 参数 ( 从 所 有 任务 的 汇集 数据 中 获 益 )。 如 图 7.2 中 的 下 层 。 
因为 共享 参数 ， 其 统计 强度 可 大 大 提高 (共享 参数 的 样本 数量 相对 于 单 任务 模 
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图 7.2: 多 任务 学 习 在 深度 学 习 框 架 中 可 以 以 多 种 方式 进行 ,该 图 说 明了 任务 共享 相同 输入 但 涉及 
不 同 目标 随机 变量 的 常见 情况 。 深 度 网 络 的 较 低层 (无论 是 监督 前 馈 的 ， 还 是 包括 向 下 箭头 的 生 
成 组 件 ) 可 以 跨 这 样 的 任务 共享 ， 而 任务 特定 的 参数 ( 分 别 与 从 hO 和 ht) 进入 和 发 出 的 权重 ) 
可 以 在 共享 表示 norem 之 上 学 习 。 这 里 的 基本 假设 是 存在 解释 输入 x 变化 的 共同 因素 池 ， 而 每 
个 任务 与 这 些 因素 的 子 集 相关 联 。 在 该 示例 中 ， 人 额外 假设 顶层 隐藏 单元 RO 和 nO 专用 于 每 个 任 
务 (分 别 预 测 y CO 和 y O )， 而 一 些 中 间 层 表示 KD 在 所 有 任务 之 间 共 享 。 在 无 监督 学 习 情 
BUR. 一些 顶 层 因素 不 与 输出 任务 (hU?) 的 任意 一 个 关联 是 有 意义 的 : 这 些 因素 可 以 解释 一 些 输 
入 变化 但 与 预测 yO 或 y O 不 相关 。 





















































式 增加 的 比例 )， 关 能 改善 泛 化 和 泛 化 误差 的 范围 (Baxter, 1995)。 当 然 ， 仅 当 不 同 
的 任务 之 间 存在 某 些 统计 关系 的 假设 是 合理 ( 意味 着 某 些 参数 能 通过 不 同 任务 共享 ) 
时 才 会 发 生 这 种 情况 。 

从 深度 学 习 的 观点 看 ， 底 层 的 先 验 知识 如 下 ， 能 解释 数据 变化 (在 与 之 相关 联 
的 不 同 任务 中 观察 到 ) 的 因素 中 ， 菜 些 因素 是 路 两 个 或 更 多 任务 共享 的 。 


7.8 ”提前 终止 


当 训练 有 足够 的 表示 能 力 甚至 会 过 拟 合 的 大 模型 时 ， 我 们 经 党 观察 到 ， 训 练 误 
差 会 随 着 时 间 的 推移 逐渐 降低 但 验证 集 的 误差 会 再 次 上 升 。 图 7.3 是 这 些 现象 的 一 个 
例子 ， 这 种 现象 几乎 一 定 会 出 现 。 

这 意味 着 如 果 我 们 返回 使 验证 集 误差 最 低 的 参数 设置 ， 就 可 以 获得 更 好 的 模型 
( 因此 ， 有 希望 获得 更 好 的 测试 误差 )。 在 每 次 验证 集 误差 有 所 改善 后 ， 我 们 存储 模 
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型 参数 的 副本 。 当 训练 算法 终止 时 ， 我 们 返回 这 些 参数 而 不 是 最 新 的 参数 。 当 验证 
集 上 的 误差 在 事先 指定 的 循环 次 数 内 没有 进一步 改善 时 ， 算 法 就 会 终止 。 此 过 程 在 
算法 7.1 中 有 更 正式 的 说 明 。 

这 种 策略 被 称 为 提前 终止 (early stopping )。 这 可 能 是 深度 学 习 中 最 常用 的 下 
则 化 形式 。 它 的 流行 主要 是 因为 有 效 性 和 简单 性 。 











算法 7.1 用 于 确定 最 佳 训练 时 间 量 的 提前 终止 元 算法 。 这 种 元 算法 是 一 种 通用 策略 ， 
可 以 很 好 地 在 各 种 训练 算法 和 各 种 量化 验证 集 误差 的 方法 上 工作 。 

S n 为 评估 间隔 的 步 数 。 

4 p 为 “耐心 (patience)”， 即 观察 到 较 坏 的 验证 集 表现 p 次 后 终止 。 

令 0, 为 初始 参数 。 

0 — 0, 

i0 





j+} 0 
ve oO 
0* —0 
i* —— i 
while j < p do 
运行 训练 算法 nb, 更 新 9 。 
ic in 
v' + ValidationSetError(0) 
if v’ « v then 
j—0 
0* —0 
i* —i 
v — v' 
else 
7 入 7 十 | 
end if 
end while 


RESAN 0*. BALVIAAE BON i" 








我 们 可 以 认为 提前 终止 是 非常 高 效 的 超 参数 选择 算法 。 按 照 这 种 观点 ， 训 练 步 
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数 仅 是 男 一 个 超 参 数 。 我 们 从 图 7.3 可 以 看 到 , 这 个 超 参数 在 验证 集 上 具有 U 型 性 能 
曲线 。 很 多 控制 模型 容量 的 超 参数 在 验证 集 上 都 是 这 样 的 U 型 性 能 曲线 ， 如 图 7.3 。 
在 提前 终止 的 情况 下 ， 我 们 通过 拟 合 训练 集 的 步 数 来 控制 模型 的 有 效 容量 。 大 多 数 
超 参 数 的 选择 必须 使 用 高 代价 的 猜测 和 检查 过 程 ， 我 们 需要 在 训练 开始 时 猜测 一 个 
超 参 数 ， 然 后 运行 几 个 步骤 检查 它 的 训练 效果 。“ 训 练 时 间 ” 是 唯一 只要 跑 一 次 训练 
就 能 尝试 很 多 值 的 超 参 数 。 通 过 提前 终止 自动 选择 超 参数 的 唯一 显著 的 代价 是 训练 
期 间 要 定期 评估 验证 集 。 在 理想 情况 下 ， 这 可 以 并 行 在 与 主 训练 过 程 分 离 的 机 器 上 ， 
或 独立 的 CPU， 或 独立 的 GPU 上 完成 。 如 果 没 有 这 些 额 外 的 资源 ， 可 以 使 用 比 训 
练 集 小 的 验证 集 或 较 不 频繁 地 评估 验证 集 来 减 小 评估 代价 ， 较 粗略 地 估算 取得 最 佳 
的 训练 时 间 。 


男 一 个 提前 终止 的 额外 代价 是 需要 保持 最 佳 的 参数 副本 。 这 种 代价 一 般 是 可 忽 
略 的 ， 因 为 可 以 将 它 储存 在 较 慢 较 大 的 存储 器 上 《例如 , 在 GPU 内 存 中 训练 , 但 将 
最 佳 参数 存储 在 主 存储 器 或 磁盘 驱动 器 上 )。 由 于 最 佳 参 数 的 写 入 很 少 发 生 而 且 从 不 
在 训练 过 程 中 读 取 ， 这 些 偶发 的 慢 写 入 对 总 训练 时 间 的 影响 不 大 。 








e—e Training set loss 
— Validation set loss 


Loss (negative log-likelihood) 
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图 7.3: 学 习 曲 线 显示 负 对 数 似 然 损 失 如 何 随时 间 变 化 Coo Dae Ue S B VIERGE RC, xx REBT 
(epochs ) )。 在 这 个 例子 中 ,我 们 在 MNIST 上 训练 了 一 个 maxout 网 络 。 我 们 可 以 观察 到 训练 目 
标 随时 间 持 续 减 小 ， 但 验证 集 上 的 平均 损失 最 终 会 再 次 增加 ， 形 成 不 对 称 的 U 形 曲线 。 



























































提前 终止 是 一 种 非常 不 显眼 的 正则 化 形式 ， 它 几乎 不 需要 改变 基本 训练 过 程 、 
目标 函数 或 一 组 允许 的 参数 值 。 这 意味 着 ， 无 需 破坏 学 习 动 态 就 能 很 容易 地 使 用 提 
前 终止 。 相对 于 权重 衰减 ,必须 小 心 不 能 使 用 太 多 的 权重 衰减 ,以 防 网 络 陷入 不 良 局 
部 极 小 点 (对 应 于 病态 的 小 权重 )。 
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提前 终止 可 单独 使 用 或 与 其 他 的 正则 化 策略 结合 使 用 。 即 使 为 鼓励 更 好 泛 化 , 使 
用 正则 化 策略 改进 目标 函数 ， 在 训练 目标 的 局 部 极 小 点 达到 最 好 泛 化 也 是 非常 罕见 
的 。 

提前 终止 需要 验证 集 ， 这 意味 着 某 些 训练 数据 不 能 被 馈送 到 模型 。 为 了 更 好 地 
利用 这 一 额外 的 数据 ， 我 们 可 以 在 完成 提前 终止 的 首次 训练 之 后 ， 进 行 额外 的 训练 。 
在 第 二 轮 额 外 的 训练 步 又 中 ， 所 有 的 训练 数据 都 被 包括 在 内 。 有 两 个 基本 的 策略 都 
可 以 用 于 第 二 轮训 练 过 程 。 

一 个 策略 (算法 7.2 ) 是 再 次 初始 化 模型 ， 然 后 使 用 所 有 数据 再 次 训练 。 在 这 个 
第 二 轮训 练 过 程 中 ， 我 们 使 用 第 一 轮 提前 终止 训练 确定 的 最 佳 步 数 。 此 过 程 有 一 些 
细微 之 处 。 例 如 ， 我 们 没有 办 法 知道 重新 训练 时 ， 对 参数 进行 相同 次 数 的 更 新 和 对 
数据 集 进行 相同 的 遍 数 哪 一 个 更 好 。 由 于 训练 集 变 大 了 ,在 第 二 轮训 练 时 ， 每 一 次 
遍历 数据 集 将 会 更 多 次 地 更 新 参数 。 

另 一 个 策略 是 保持 从 第 一 轮训 练 获得 的 参数 ， 然 后 使 用 全 部 的 数据 继续 训练 。 
在 这 个 阶段 , 已 经 没有 验证 集 指导 我 们 需要 在 训练 多 少 步 后 终止 。 相反 , 我 们 可 以 监 
控 验 证 集 的 平均 损失 函数 ， 并 继续 训练 ， 直 到 它 低 于 提前 终止 过 程 终止 时 的 目标 值 。 
此 策略 避免 了 重新 训练 模型 的 高 成 本 ， 但 表现 并 没有 那么 好 。 例 如 ， 验 证 集 的 目标 
不 一 定 能 达到 之 前 的 目标 值 ， 所 以 这 种 策略 甚至 不 能 保证 终止 。 我 们 会 在 算法 7.3 中 
更 正式 地 介绍 这 个 过 程 。 

提前 终止 对 减少 训练 过 程 的 计算 成 本 也 是 有 用 的 。 除 了 由 于 限制 训练 的 选 代 次 
数 而 明显 减少 的 计算 成 本 ;还 带 来 了 正则 化 的 益处 (不 需要 添加 惩罚 项 的 代价 函 
数 或 计算 这 种 附加 项 的 梯度 )。 























算法 7.2 使 用 提前 终止 确定 训练 步 数 ， 然 后 在 所 有 数据 上 训练 的 元 算法 。 0 
Ay rm) 和 Wai 为 训练 集 。 
将 和 sin 和 erai) 分 别 分 割 为 (和 obtain)，XCaid) 和 (gy(subteain) gvalid))。 
从 随机 9 开始 ”使 用 xetan) 和 subtrain) 作为 训练 集 ， XCalid) 和 yalid) 作为 
验证 集 ， 运 行 (算法 7.1)。 这 将 返回 最 佳 训 练 步 数 d* s 
将 0 再 次 设 为 随机 值 。 
在 xin) 和 (train) 上 训练 六 步 。 
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算法 7.3 使 用 提前 终止 确定 将 会 过 拟 合 的 目标 值 ， 然 后 在 所 有 数据 上 训练 直到 再 次 
达到 该 值 的 元 算法 。 

令 XY 和 enim 为 训练 集 。 

将 X(train) 和 train) 分 别 分 割 为 Cane) xeon 和 (y(subtrain) gi), 

从 随机 0 开始 ， 使 用 xX subtrain) 和 gSubtrain) 作为 训练 集 ， xvid) 和 yid) 作为 

验证 集 ， 运 行 (算法 7.1 )。 这 会 更 新 0。 

e — J(0, EHE. y(subtrain) ) 

while J(0, XC). yvalid)) > € do 

在 xin) 和 ym) 上 训练 n 步 。 


end while 











提前 终止 为 何 具有 正则 化 效果 : 目前 为 止 ， 我 们 已 经 声明 提前 终止 是 一 种 正则 化 策 
略 ， 但 我 们 只 通过 展示 验证 集 误差 的 学 习 曲 线 是 一 个 U 型 曲线 来 支持 这 种 说 法 。 
提前 终止 正则 化 模型 的 真正 机 制 是 什么 呢 ? Bishop (1995a) 和 Sjöberg and Ljung 
(1995) 认为 提前 终止 可 以 将 优化 过 程 的 参数 空间 限制 在 初始 参数 值 6 的 小 邻 域 内 。 
更 具体 地 ， 想 象 用 学 习 率 e 进行 7 个 优化 步骤 (对 应 于 7 个 训练 迁 代 )。 我 们 可 以 
将 er 作为 有 效 容量 的 度量 。 假 设 梯 度 有 界 ， 限 制 迭 代 的 次 数 和 学 习 速 率 能 够 限制 从 
0o 到 达 的 参数 空间 的 大 小 ， 如 图 7.4 所 示 。 在 这 个 意义 上 ，er 的 效果 就 好 像 是 权重 
衰减 系数 的 倒数 。 

事实 上 , 在 二 次 误差 的 简单 线性 模型 和 简单 的 梯度 下 降 情 况 下 , 我 们 可 以 展示 提 
前 终止 相当 于 LEWE. 

为 了 与 经 典 瑚 正则 化 比较 ， 我 们 只 考察 唯一 的 参数 是 线性 权重 (0 = w) 的 简 
单 情 形 。 我 们 在 权重 w 的 经 验 最 佳 值 w* 附近 以 二 次 近似 建 模 代价 函数 J: 














(8) = J(u") + (wo- w*)" H(w — u), (7.33) 


其 中 H EJ XT wH w* 点 的 Hessian。 鉴 于 假设 w 是 J(w) 的 最 小 点 ， 我 们 知 
道 H 为 半 正 定 。 在 局 部 泰勒 级 数 逼 近 下 ， 梯 度 由 下 式 给 出 : 


V,J(w) = H(w— w). (7.34) 
接 下 来 我 们 研究 训练 时 参数 向 量 的 轨迹 。 为 简化 起 见 ， 我 们 将 参数 向 量 初始 化 


为 原点 ?3， 也 就 是 w = 0。 我 们 通过 分 析 了 上 的 梯度 下 降 来 研究 J 上 近似 的 梯度 
?对 于 神经 网 络 ， 我 们 需要 打破 隐藏 单 元 间 的 对 称 平衡 因此 不 能 将 所 有 参数 都 初始 化 为 0 ( 如 第 6.2 节 所 讨论 的 )。 
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w2 








图 7.4: 提前 终止 效果 的 示意 图 。( 左 ) 实 线 轮廓 线 表示 负 对 数 似 然 的 轮廓 。 虚 线 表 示 从 原点 开始 
的 SGD 所 经 过 的 轨迹 。 提 前 终止 的 轨迹 在 较 早 的 点 vo 处 停止 ， 而 不 是 停止 在 最 小 化 代价 的 点 w* 
处 。( 右 ) 为 了 对 比 , 使 用 局 正则 化 效果 的 示意 图 。 虚 线 圆圈 表示 L 惩罚 的 轮廓 ，L? 惩罚 使 得 总 




















代价 的 最 小 值 比 非 正 则 化 代价 的 最 小 值 更 靠近 原点 。 
下 降 的 效果 : 
w = wl) — eV, J(we-?) (7.35) 
= wd — Hw DN — w“), (7.36) 
w — u” = (I- cH)(u-? — u"). (7.37) 





现在 让 我 们 在 H 特征 向 量 的 空间 中 改写 表达 式 ， 利 用 五 的 特征 分 解 : H= QAQ', 
其 中 A 是 对 角 和 矩阵 ，Q 是 特征 向 量 的 一 组 标准 正 交 基 。 











w — w* = (I- €QAQ')(u^ 7? — w) (7.38) 
Q' (wW — w*) = (I- eA)Q (w^? — w') (7.39) 
假定 w(? = 0 JF E. e 选择 得 足够 小 以 保证 |1 — eXi| < 1， 经 过 7 次 参数 更 新 后 轨迹 
如 下 : 

Q w^? -[I- (I- eA)]Q uw. (7.40) 

现在 ， 式 (7.13) FQ! D WAAR HERE SH: 
Q'w=(A+al AQ u”, (7.41) 
Q'w=([I- (A+aD iaQ' w. (7.42) 








然而 ， 对 于 其 他 任何 初始 值 weo) 该 论证 都 成 立 
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比较 式 (7.40) 和 式 (7.42) ， 我 们 能 够 发 现 ， 如 果 超 参数 ea 和 7 满足 如 下 : 

(I— AY = (A+aD !o, (7.43) 


那么 L? 正则 化 和 权重 衰减 可 以 被 看 作 是 等 价 的 (至少 在 目标 函数 的 二 次 近似 下 )。 
进一步 取 对 数 ， 使 用 log (1 +z) 的 级 数 展开 ， 我们 可 以 得 出 结论 : 如 果 所 有 A; 是 
NIS. CB eA; K 1 H. Ajo « 1), 那么 


1 
=~ — .44 
ir. ven 
: (7.45) 
ar —. é 
TE 


也 就 是 说 ， 在 这 些 假设 下 ， 训 练 迭 代 次 数 7 起 着 与 L? 参数 成 反比 的 作用 ，re 的 倒 
数 与 权重 衰减 系数 的 作用 类 似 。 

对 应 显著 曲率 C 目标 函数 ) 方向 的 参数 值 正则 化 小 于 小 曲率 方向 。 当 然 ， 在 提 
前 终止 的 情况 下 ， 这 实际 上 意味 着 对 应 于 显著 曲率 方向 的 参数 比较 小 的 曲率 方向 的 
参数 更 早 地 停止 学 习 。 

本 节 中 的 推导 表明 长 度 为 7 的 轨迹 结束 于 天正 则 化 目标 的 极 小 点 。 当 然 ， 提 前 
终止 比 简单 的 轨迹 长 度 限制 更 丰富 ; 相反 ,提前 终止 通常 涉及 监控 验证 集 误差 , 以便 
在 空间 特别 好 的 点 处 终止 轨迹 。 因 此 提前 终止 比 权重 衰减 更 具有 优势 ， 提 前 终止 能 
自动 确定 正则 化 的 正确 量 ， 而 权重 衰减 需要 多 个 训练 实验 测试 其 超 参 数 的 不 同 值 。 








7.9 ”参数 绑 定 和 参数 共享 


目前 为 止 ， 本 章 讨论 对 参数 添加 约束 或 惩罚 时 ， 一 直 是 相对 于 固定 的 区 域 或 点 。 
例如 ， 玫 正则 化 《或 权重 衰减 ) 对 参数 偏离 零 的 固定 值 进行 惩罚 。 然 而 ， 有 时 我 们 
可 能 需要 其 他 的 方式 来 表达 我 们 对 模型 参数 适当 值 的 先 验 知识 。 有 时 候 ， 我 们 可 能 
无 法 准确 地 知道 应 该 使 用 什么 样 的 参数 ， 但 我 们 根据 领域 和 模型 结构 方面 的 知识 得 
知 模型 参数 之 间 应 该 存在 一 些 相关 性 。 

我 们 经 常 想 要 表达 的 一 种 常见 依赖 是 某 些 参数 应 当 彼此 接近 。 考 虑 以 下 情形 : 
我 们 有 两 个 模型 执行 相同 的 分 类 任务 〈 具有 相同 类 别 )， 但 输入 分 布 稍 有 不 同 。 形 式 
地 ， 我 们 有 参数 为 wt 的 模型 A 和 参数 为 wP) 的 模型 B。 这 两 种 模型 将 输入 映射 
到 两 个 不 同 但 相关 的 输出 : 909 = f(w), 2) Al 909 = f(w( P. 2). 
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我 们 可 以 想象 ， 这 些 任 务 会 足够 相似 (或许 具 有 相似 的 输入 和 输出 分 布 ) A 
此 我 们 认为 模型 参数 应 彼此 靠近 : Vi,w 应 该 与 w 接近 。 我们 可 以 通过 正则 
化 利用 此 信息 。 具 体 来 说 , 我 们 可 以 使 用 以 下 形式 的 参数 范 数 惩罚 : O(w, we) = 
||) — ax 上。 在 这 里 我 们 使 用 L 惩罚 ， 但 也 可 以 使 用 其 他 选择 。 

这 种 方法 由 Lasserre et al. (2006) 提出 ， 正 则 化 一 个 模型 (监督 模式 下 训练 的 分 
ak ) 的 参数 ， 使 其 接近 另 一 个 无 监督 模式 下 训练 的 模型 ( 捕捉 观察 到 的 输入 数据 
的 分 布 ) 的 参数 。 这 种 构造 架构 使 得 许多 分 类 模型 中 的 参数 能 与 之 对 应 的 无 监督 模 
型 的 参数 匹配 。 

参数 范 数 惩罚 是 正则 化 参数 使 其 彼此 接近 的 一 种 方式 ， 而 更 流行 的 方法 是 使 用 
约束 : 强迫 某 些 参数 相等 。 由 于 我 们 将 各 种 模型 或 模型 组 件 解释 为 共享 唯一 的 一 组 
参数 ， 这 种 正则 化 方法 通常 被 称 为 参数 共享 ( parameter sharing )。 和 正则 化 参数 使 
其 接近 ( 通过 范 数 惩罚 ) 相 比 ,参数 共享 的 一 个 显著 优点 是 ， 只 有 参数 ( 唯一 一 个 集 
R) 的 子 集 需要 被 存储 在 内 存 中 。 对 于 某 些 特定 模型 ， 如 卷 积 神经 网 络 ， 这 可 能 可 
以 显著 减少 模型 所 占用 的 内 存 。 

















7.9.1 “ 卷 积 神经 网 络 


目前 为 止 ， 最 流行 和 广泛 使 用 的 参数 共享 出 现在 应 用 于 计算 机 视觉 的 卷 积 神经 
网 络 (CNN) 中 。 自 然 图 像 有 许多 统计 属性 是 对 转换 不 变 的 。 例 如 ， 猫 的 照片 即使 
向 右边 移 了 一 个 像素 ， 仍 保持 猫 的 照片 。CNN 通 过 在 图 像 多 个 位 置 共享 参数 来 考虑 
这 个 特性 。 相 同 的 特征 (具有 相同 权重 的 隐藏 单元 ) 在 输入 的 不 同位 置 上 计算 获得 。 
这 意味 着 无 论 猫 出 现在 图 像 中 的 第 i 列 或 i 十 1 列 , 我 们 都 可 以 使 用 相同 的 猫 探测 器 
TREN o 

参数 共享 显著 降低 了 CNN 模 型 的 参数 数量 ， 并 显著 提高 了 网 络 的 大 小 而 不 需要 
相应 地 增加 训练 数据 。 它 仍然 是 将 领域 知识 有 效 地 整合 到 网 络 架 构 的 最 佳 范例 之 一 。 

我 们 将 会 在 第 九 章 中 更 详细 地 讨论 卷 积 神经 网 络 。 


7.10 RARA 


前 文 所 述 的 权重 衰减 直接 惩罚 模型 参数 。 男 一 种 策略 是 惩罚 神经 网 络 中 的 激活 
单元 ， 稀 玻 化 激活 单元 。 这 种 策略 间接 地 对 模型 参数 施加 了 复杂 惩罚 。 
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我 们 已 经 讨论 过 (在 第 7.1.2 节 中 ) L 惩罚 如 何 诱导 稀 琉 的 参数 ， 即 许多 参数 为 
F (或 接近 于 零 )。 表 示 的 稀 丽 ， 在 另 一 方面 描述 了 许多 元 素 是 零 〈 或 接近 零 ) 的 表 
示 。 我 们 可 以 线性 回归 的 情况 下 简单 说 明 这 种 区 别 : 




















2 
18 A 0 0 =2 0 0 |? 
5 0 0 -1 0 3 0 | j 
15}=10 5 0 0 0 0 a (7.46) 
一 9 1 0 0 -1 0 -4 : 
em 10 0 0 —5 0 
yc R™ A c gmxn 4 
rE R” 
0 
一 14 -1 2 ^4 i 
1 4 2 -3 -1 We. Z : 
19|2|-1. 5 4 2 -3 -2 i (7.47) 
2 3 Wa? -3 0 —3 í 
23 -5 4W WA -5 -1 
yc R™ B c Rmxn 0 
hcm 


5 — Tr A S RU IA VE I VY BI OP RATE RUE z 具 
iW h 的 线性 回归 。 也 就 是 说 ,，h 是 x 的 一 个 函数 ， 在 某 种 意义 上 表示 存在 
于 z 中 的 信息 ， 但 只 是 用 一 个 稀 玻 向 量 表示 。 

表示 的 正则 化 可 以 使 用 参数 正则 化 中 同 种 类 型 的 机 制 实现 。 

表示 的 范 数 惩罚 正则 化 是 通过 向 损失 函数 7 添加 对 表示 的 范 数 惩罚 来 实现 的 。 
我 们 将 这 个 惩罚 记 作 Q( 及 。 和 以 前 一 样 ， 我 们 将 正则 化 后 的 损失 函数 记 作 J: 








J(0; X, y) = J(0; X, y) + oQ(h), (7.48) 





其 中 o € [0,00] 权衡 范 数 惩罚 项 的 相对 贡献 ， 越 大 的 a 对 应 越 多 的 正则 化 。 

正如 对 参数 的 L 惩罚 诱导 参数 稀 玻 性 ， 对 表示 元 素 的 L 惩罚 诱导 稀 朴 的 表示 : 
Q(h) = ||h|, = X; hilo SMA Lt 惩罚 是 使 表示 稀 玻 的 方法 之 一 。 甚 他 方法 还 包括 
从 表示 上 的 Student-t 先 验 导 出 的 惩罚 (Olshausen and Field, 1996; Bergstra, 2011) 
和 KL 散 度 惩罚 (Larochelle and Bengio, 2008a) 有 利于 表示 元 素 约束 于 单位 区 间 上 。 
Lee et al. (2008) 和 Goodfellow et al. (2009) 都 提供 了 正则 化 几 个 样本 平均 激活 的 例 
子 ， 即 令 L5 n0 接近 某 些 目标 值 ( 如 每 项 都 是 .01 的 向 量 )。 
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还 有 一 些 其 他 方法 通过 激活 值 的 硬性 约束 来 获得 表示 稀 琉 。 例 如 ， 正 交 匹 配 追 
Ex (orthogonal matching pursuit)(Pati et al., 1993) 通过 解决 约束 优化 问题 将 输入 值 
2 编码 成 表示 h 
arg min | z — Whl|? , (7.49) 
h,|| ll o<k 
其 中 |All, 是 h PSPS. 5 OW 被 约束 为 正 交 时 ,我们 可 以 高 效 地 解决 这 个 
问题 。 这 种 方法 通常 被 称 为 OMP-k， 通 过 指定 允许 的 非 零 特征 数量 。Coates and 
Ng (2011) 证 明 OMP-1 可 以 成 为 深度 架构 中 非常 有 效 的 特征 提取 器。 
含有 隐藏 单元 的 模型 在 本 质 上 都 能 变 得 稀 琉 。 在 本 书 中 ， 我 们 将 看 到 在 各 种 情 
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7.11 Bagging 和 其 他 集成 方法 


Bagging (bootstrap aggregating ) 是 通过 结合 儿 个 模型 降低 泛 化 误差 的 技术 
(Breiman，1994)。 主 要 想法 是 分 别 训练 几 个 不 同 的 模型 ， 然 后 让 所 有 模型 表决 测 
试 样 例 的 输出 。 这 是 机 器 学 习 中 常规 策略 的 一 个 例子 ， 被 称 为 模型 平均 (model 
averaging )。 采 用 这 种 策略 的 技术 被 称 为 集成 方法 。 

模型 平均 (model averaging ) 奏效 的 原因 是 不 同 的 模型 通常 不 会 在 测试 集 上 产 
生 完 全 相同 的 误差 。 

BRERA 个 回归 模型 。 假 设 每 个 模型 在 每 个 例子 上 的 误差 是 e;， 这 个 误差 
服从 零 均值 方差 为 Elé] = v 且 协 方差 为 E[e;e;] = c 的 多 维 正 态 分 布 。 通 过 所 有 集 
成 模型 的 平均 预测 所 得 误差 是 >), e;。 集 成 预测 器 平方 误差 的 期 望 是 


leeke] e 


i ji 
1 k—1 

c + 天 
在 误差 完全 相关 即 c = v 的 情况 下 ， 均 方 误差 减少 到 v， 所 以 模型 平均 没有 任何 帮 
助 。 在 错误 完全 不 相关 即 c = 0 的 情况 下， 该 集成 平方 误差 的 期 望 仅 为 iw。 这 意味 
着 集成 平方 误差 的 期 望 会 随 着 集成 规模 增 大 而 线性 减 小 。 换 言 之 ,集成 平均 至 少 与 
它 的 任何 成 员 表 现 得 一 样 好 ， 并 且 如 果 成 员 的 误差 是 独立 的 ， 集 成 将 显著 地 比 其 成 
员 表 现 得 更 好 。 
























































c. (7.51) 
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不 同 的 集成 方法 以 不 同 的 方式 构建 集成 模型 。 例 如 ， 集 成 的 每 个 成 员 可 以 使 用 
不 同 的 算法 和 目标 函数 训练 成 完全 不 同 的 模型 。Bagging 是 一 种 允许 重复 多 次 使 用 同 
一 种 模型 、 训 练 算法 和 目标 函数 的 方法 。 

具体 来 说 ，Bagging 涉 及 构造 个 不 同 的 数据 集 。 每 个 数据 集 从 原始 数据 集中 重 
复 采样 构成 ， 和 原始 数据 集 具 有 相同 数量 的 样 例 。 这 意味 着 ， 每 个 数据 集 以 高 概率 
缺少 一 些 来 自 原始 数据 集 的 例子 ， 还 包含 若干 重复 的 例子 〈 如 果 所 得 训练 集 与 原始 
数据 集 大 小 相同 ， 那 所 得 数据 集中 大 概 有 原始 数据 集 2/3 的 实例 ) 模型 i 在 数据 集 
i 上 训练 。 每 个 数据 集 所 含 样 本 的 差异 导致 了 训练 模型 之 间 的 差异 。 图 7.5 是 一 个 例 
EE 
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First resampled dataset 


DOA -- (5 --C) 


Second resampled dataset Second ensemble member 


DOO 9» O>) 


图 7.5: 描述 Bagging 如 何 工 作 的 草图 。 假 设 我 们 在 上 述 数 据 集 (包含 一 个 8, 一 个 6 和 一 个 9) 上 
训练 数字 8 的 检测 器 。 假 设 我 们 制作 了 两 个 不 同 的 重 采样 数据 集 。Bagging 训 | 练 程序 通过 蔡 换 采样 
构建 这 些 数据 集 。 第 一 个 数据 集 忽略 9 并 重复 8。 在 这 个 数据 集 上 ， 检 测 器 得 知 数字 项 部 有 一 个 
环 就 对 应 于 一 个 8。 第 二 个 数据 集中 ,我 们 忽略 6 并 重复 9。 在 这 种 情况 下 ， 检 测 器 得 知 数字 底部 
有 一 个 环 就 对 应 于 一 个 8。 这 些 单独 的 分 类 规则 中 的 每 一 个 都 是 不 可 靠 的 , 但 如 果 我 们 平均 它们 的 
输出 ， 就 能 得 到 和 鲁 棒 的 检测 器 ， 只 有 当 8 的 两 个 环 都 存在 时 才能 实现 最 大 置信 和 度 。 


First ensemble member 





















































神经 网 络 的 解 能 达到 足够 多 的 变化 意味 着 他 们 可 以 从 模型 平均 中 受益 (即使 所 
有 模型 都 在 同一 数据 集 上 训练 )。 神 经 网 络 中 随机 初始 化 的 差异 、 小 批量 的 随机 选择 、 
超 参 数 的 差异 或 不 同 输出 的 非 确 定性 实现 往往 足以 使 得 集成 中 的 不 同 成 员 具 有 部 分 
独立 的 误差 。 

模型 平均 是 一 个 减少 泛 化 误差 的 非常 强大 可 靠 的 方法 。 在 作为 科学 论文 算法 的 
基准 时 ， 它 通常 是 不 鼓励 使 用 的 ， 因 为 任何 机 天 学 习 算 法 都 可 以 从 模型 平均 中 大 幅 
获 益 《以 增加 计算 和 存储 为 代价 )。 
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机 融 学 习 比 赛 中 的 取胜 算法 通常 是 使 用 超过 几 十 种 模型 平均 的 方法 。 最 近 一 个 
突出 的 例子 是 Netflix Grand Prize(Koren, 2009)。 

不 是 所 有 构建 集成 的 技术 都 是 为 了 让 集成 模型 比 单一 模型 更 加 正则 化 。 例如 , 一 
种 被 称 为 Boosting ( Boosting ) 的 技术 (Freund and Schapire, 1996b,a) 构建 比 单个 
模型 容量 更 高 的 集成 模型 。 通 过 向 集成 逐步 添加 神经 网 络 ，Boosting 已 经 被 应 用 于 构 
建 神经 网 络 的 集成 (Schwenk and Bengio, 1998)。 通 过 逐渐 增加 神经 网 络 的 隐藏 单元 ， 
Boosting 也 可 以 将 单个 神经 网 络 解释 为 一 个 集成 。 


7.12 Dropout 


Dropout (Dropout ) (Srivastava et al., 2014) 提供 了 正则 化 一 大 类 模型 的 方 
法 ,计算 方便 但 功能 强大 。 在 第 一 种 近似 下 ，Dropout 可 以 被 认为 是 集成 大 量 深层 神 
经 网 络 的 实用 Bagging 方 法 。Bagging 涉 及 训练 多 个 模型 ， 并 在 每 个 测试 样本 上 评估 
多 个 模型 。 当 每 个 模型 都 是 一 个 很 大 的 神经 网 络 时 ， 这 似乎 是 不 切实 际 的 ， 因 为 训 
练 和 评估 这 样 的 网 络 需 要 花费 很 多 运行 时 间 和 和 内存。 通常 我 们 只 能 集成 五 至 十 个 神 
经 网 络 ， 如 Szegedy et al. (2014a) 集 成 了 六 个 神经 网 络 赢得 ILSVRC， 超 过 这 个 数量 
就 会 迅速 变 得 难以 处 理 。Dropout 提 供 了 一 种 廉价 的 Bagging 集 成 近似 ， 能 够 训练 和 
评估 指数 级 数量 的 神经 网 络 。 

具体 而 言 ，Dropout 训 练 的 集成 包括 所 有 从 基础 网 络 除 去 非 输出 单元 后 形成 的 子 
网 络 ， 如 图 7.6 所 示 。 最 先进 的 神经 网 络 基 于 一 系列 仿 射 变换 和 非 线 性 变换 ， 我 们 只 
需 将 一 些 单元 的 输出 乘 零 就 能 有 效 地 删除 一 个 单元 。 这 个 过 程 需要 对 模型 〈 如 径 向 
基 沙 数 网 络 ， 单 元 的 状态 和 参考 值 之 间 存 在 一 定 区 别 ) 进行 一 些 修 改 。 为 了 简单 起 
Ji, 我 们 在 这 里 提出 乘 零 的 简单 Dropout 算 法 , 但 是 它 被 简单 修改 后 ， 可 以 与 从 网 络 
中 移 除 单元 的 其 他 操作 结合 使 用 。 

回想 一 下 Bagging 学 习 ， 我 们 定义 个 不 同 的 模型 ， 从 训练 集 有 替换 采样 构造 
k 个 不 同 的 数据 集 ， 然 后 在 训练 集 i 上 训练 模型 i。Dropout 的 目标 是 在 指数 级 数 
量 的 神经 网 络 上 近似 这 个 过 程 。 有 具体 来 说 ， 在 训练 中 使 用 Dropout 时 ， 我 们 会 使 用 
基于 小 批量 的 学 习 算 法 和 较 小 的 步 长 ， 如 梯度 下 降 等 。 我 们 每 次 在 小 批量 中 加 载 一 
个 样本 ， 然 后 随机 抽样 应 用 于 网 络 中 所 有 输入 和 隐藏 单元 的 不 同 二 值 掩 码 。 对 于 每 
个 单元 ， 掩 人 码 是 独立 采样 的 。 掩 码 值 为 1 的 采样 概率 ( 导致 包含 一 个 单元 ) 是 训练 
开始 前 一 个 固定 的 超 参数 。 它 不 是 模型 当前 参数 值 或 输入 样本 的 函数 。 通 常 在 每 一 
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Ensemble of subnetworks 





图 7.6: Dropout 训 练 由 所 有 子 网 络 组 成 的 集成 ， 其 中 子 网 络 通过 从 基本 网 络 中 删除 非 输出 单元 构 
建 。 我 们 从 具有 两 个 可 见 单元 和 两 个 隐藏 单元 的 基本 网 络 开始 。 这 四 个 单元 有 十 六 个 可 能 的 子 集 。 
右 图 展示 了 从 原始 网 络 中 丢弃 不 同 的 单元 子 集 而 形成 的 所 有 十 六 个 子 网 络 。 在 这 个 小 例子 中 ， 所 
得 到 的 大 部 分 网 络 没有 输入 单元 或 没有 从 输入 连接 到 输出 的 路 径 。 当 层 较 宽 时 ， 丢 弃 所 有 从 输入 
到 输出 的 可 能 路 径 的 概率 变 小 ， 所 以 这 个 问题 不 太 可 能 在 出 现 层 较 宽 的 网 络 中 。 




































































个 小 批量 训练 的 神经 网 络 中 ， 一 个 输入 单元 被 包括 的 概率 为 0.8， 一 个 隐藏 单元 被 包 

括 的 概率 为 0.5。 然 后， 我 们 运行 和 之 前 一 样 的 前 向 传播 、 反 问 传 播 以 及 学 习 更 新 。 

图 7.7 说 明了 在 Dropout 下 的 前 向 传播 。 

更 正式 地 说 , 假设 一 个 掩 人 码 向 量 p 指定 被 包括 的 单元 ,J(0, u) 是 由 参数 o Tut 

码 u 定义 的 模型 代价 。 那么 Dropout 训 练 的 目标 是 最 小 化 EE,,J(0, u) HEBEL 
旨 数 级 的 项 ， 但 我 们 可 以 通过 抽样 jy 获得 梯度 的 无 偏 估计 。 

Dropout 训 练 与 Bagging 训 | 练 不 太一 样 。 在 Bagging 的 情况 下 ， 所 有 模型 都 是 独立 
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图 7.7: 在 使 用 Dropout 的 前 馈 网 络 中 前 向 传播 的 示例 。( 顶 部 ) 在 此 示例 中 , 我 们 使 用 具有 两 个 输入 
单元 , 具有 两 个 隐藏 单元 的 隐藏 层 以 及 一 个 输出 单元 的 前 馈 网 络 。( 底 部 ) 为 了 执行 具有 Dropout 的 
前 向 传播 ， 我 们 随机 地 对 向 量 /进行 采样 ， 其 中 网 络 中 的 每 个 输入 或 隐藏 单元 对 应 一 项 。A 中 的 
每 项 都 是 二 值 的 且 独 立 于 其 他 项 采样 。 超 参数 的 采样 概率 为 1， 隐 藏 层 的 采样 概率 通常 为 0.5， 输 
入 的 采样 概率 通常 为 0.8。 网 络 中 的 每 个 单元 乘 以 相应 的 掩 码 ， 人 然后 正常 地 继续 沿 着 网 络 的 其 余部 
分 前 向 传播 。 这 相当 于 从 图 7.6 中 随机 选择 一 个 子 网 络 并 沿 着 前 向 传播 。 






























































的 。 在 Dropout 的 情况 下 ， 所 有 模型 共享 参数 ， 其 中 每 个 模型 继承 父 神经 网 络 参数 
的 不 同 子 集 。 参 数 共享 使 得 在 有 限 可 用 的 内 存 下 表示 指数 级 数量 的 模型 变 得 可 能 。 
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在 Bagging 的 情况 下 ， 每 一 个 模型 在 其 相应 训练 集 上 训练 到 收敛 。 在 Dropout 的 情况 
下 ， 通 常 大 部 分 模型 都 没有 显 式 地 被 训练 ， 因 为 通常 父 神经 网 络 会 很 大 ， 以 致 于 到 
宇宙 毁灭 都 不 可 能 采样 完 所 有 的 子 网 络 。 取 而 代 之 的 是 ， 在 单个 步骤 中 我 们 训练 一 
小 部 分 的 子 网 络 ， 参 数 共享 会 使 得 剩余 的 子 网 络 也 能 有 好 的 参数 设 定 。 这 些 是 仅 有 
的 区 别 。 除 了 这 些 ，Dropout 与 Bagging 算 法 一 样 。 例 如 ， 每 个 子 网 络 中 遇 到 的 训练 
集 确实 是 替换 采样 的 原始 训练 集 的 一 个 子 集 。 

Bagging 集 成 必须 根据 所 有 成 员 的 累积 投票 做 一 个 预测 。 在 这 种 背景 下 ， 我 们 
将 这 个 过 程 称 为 推断 (inference )。 目 前 为 止 ， 我 们 在 介绍 Bagging 和 Dropout 时 没 
有 要 求 模型 具有 明确 的 概率 。 现 在 ， 我 们 假定 该 模型 的 作用 是 输出 一 个 概率 分 布 。 
在 Bagging 的 情况 下 ， 每 个 模型 i 产生 一 个 概率 分 布 pO(y| z)。 集 成 的 预测 由 这 些 
分 布 的 算术 平均 值 给 出 ， 


DIG wia. (7:52) 


在 Dropout 的 情况 下 ， 通 过 掩 码 jy 定义 每 个 子 模型 的 概率 分 布 p(y | au). Br 
有 捧 码 的 算术 平均 值 由 下 式 给 出 


So p(u)ply | a. n), (7.53) 


m 


其 中 p(w) 是 训练 时 采样 jv 的 概率 分 布 。 

因为 这 个 求 和 包含 多 达 指 数 级 的 项 ， 除 非 该 模型 的 结构 允许 某 种 形式 的 简化 ， 
否则 是 不 可 能 计算 的 。 目 前 为 止 ， 无 法 得 知 深度 神经 网 络 是 否 人 允许 某 种 可 行 的 简化 。 
相反 ， 我 们 可 以 通过 采样 近似 推断 ， 即 平均 许多 掩 码 的 输出 。 即 使 是 10— 20 Mit 
码 就 足以 获得 不 错 的 表现 。 

然而 ， 一 个 更 好 的 方法 能 不 错 地 近似 整个 集成 的 预测 ， 且 只 需 一 个 前 向 传播 
的 代价 。 要 做 到 这 一 点 ， 我 们 改 用 集成 成 员 预 测 分 布 的 几何 平均 而 不 是 算术 平均 。 
Warde-Farley et al. (2014) 提出 的 论点 和 经 验证 据 表 明 ， 在 这 个 情况 下 几何 平均 与 
算术 平均 表现 得 差不多 。 

多 个 概率 分 布 的 几何 平均 不 能 保证 是 一 个 概率 分 布 。 为 了 保证 结果 是 一 个 概率 
分 布 ， 我 们 要 求 没 有 子 模型 给 某 一 事件 分 配 概率 0， 并 重新 标准 化 所 得 分 布 。 通 过 几 
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何平 均 直 接 定 义 的 非 标准 化 概率 分 布 由 下 式 给 出 


Pensemblel y | x (T^ y | T. H), (7.54) 


其 中 d 是 可 被 丢弃 的 单元 数 。 这 里 为 简化 介绍 ， 我 们 使 用 均匀 分 布 的 由， 但 非 均匀 
分 布 也 是 可 以 的 。 为 了 作出 预测 ， 我 们 必须 重新 标准 化 集成 : 











) = Pensemble (Y | zx) (7.55) 


Pensemble (y | T 一 F 
> Pensemble (VY | x) 


涉及 Dropout 的 一 个 重要 观点 (Hinton et al., 2012b) 是 , 我 们 可 以 通过 评估 模型 
中 p(y | x) 来 近似 pensemble: 该 模型 具有 所 有 单元 ， 但 我 们 将 模型 的 权重 修改 为 和 单 
元 i 的 概率 的 乘积 。 这 个 修改 的 动机 是 得 到 从 该 单元 输出 的 正确 期 望 值 。 我 们 把 这 
种 方法 称 为 权重 比例 推断 规则 (weight scaling inference rule )。 目 前 还 没有 在 深度 
非 线 性 网 络 上 对 这 种 近似 推断 规则 的 准确 性 作 任何 理论 分 析 ， 但 经 验 上 表现 得 很 好 。 

因为 我 们 通常 使 用 2 的 包含 概率 ， 权 重 比例 规则 一 般 相 当 于 在 训练 结束 后 将 权 
重 除 2, 然后 像 平常 一 样 使 用 模型 。 实 现 相同 结果 的 另 一 种 方法 是 在 训练 期 间 将 单元 
的 状态 乘 2. 无 论 哪 种 方式 , 我 们 的 目标 是 确保 在 测试 时 一 个 单元 的 期 望 总 输入 与 在 
训练 时 该 单元 的 期 望 总 输入 是 大 致 相同 的 ( 即使 近 半 单位 在 训练 时 丢失 )。 

对 许多 不 具有 非 线 性 隐藏 单元 的 模型 族 而 言 ， 权 重 比 例 推断 规则 是 精确 的 。 举 
个 简单 的 例子 ， 考 虑 softmax 函数 回归 分 类 ， 其 中 由 向 量 v 表示 on 个 输入 变量 : 





P(y = y | v) =softmax(W'v + b) (7.56) 

我 们 可 以 根据 二 值 向 量 d 逐 元 素 的 乘法 将 一 类 子 模型 进行 索引 : 
P(y = y | v; d) = softmax(W' (dO v) + b). (7.57) 

集成 预测 需 被 定义 为 重新 标准 化 所 有 集成 成 员 预 测 的 几何 平均 : 


Pt 人 (人 =y | v) 
D 上 (y = y | v) 





(7.58) 





Psisembie(¥ = y | v) = 


; 
ES 





Psempble(y = y | v) = wh II Ply =y | V; d). (7.59) 
dc(0,1)" 
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为 了 证 明 权 重 比例 推断 规则 是 精确 的 , 我 们 简化 Ponpie: 


























Passes Y = y | v) =" ug II Ply =y | V; d) (7.60) 

de{0,1}™ 
= yn II softmax( W' (dO v) + b), (7.61) 

dc (0,1)" 
E exp(W; (do v) + by) ES 
de (0,1)^ 2 exp( W, (dc v) t by) 
7 bends exp( W, (do v) + by) (7.63) 
EV Lacto} X) exp( W, (do v) + by) l 
由 于 P 将 被 标准 化 ， 我 们 可 以 放心 地 忽略 那些 相对 y 不 变 的 乘法 : 
Pasombie(y = y | v) C an II exp( W, (do v) + b,) (7.64) 
dc(0,1)" 
1 

= exp 和 2 W, (dc v) + 3 (7.65) 

dc (0,1)" 

1 

= exp (5 Wiv4 by). (7.66) 





将 其 代入 式 (7.58) , FAM BT TARE 1 W 的 softmax PRU 2S ss 

权重 比例 推断 规则 在 其 他 设 定 下 也 是 精确 的 ， 包 括 条 件 正 态 输出 的 回归 网 络 以 
及 那些 隐藏 层 不 包含 非 线性 的 深度 网 络 。 然 而 ， 权 重 比例 推断 规则 对 具有 非 线性 的 
深度 模型 仅仅 是 一 个 近似 。 虽 然 这 个 近似 尚未 有 理论 上 的 分 析 ， 但 在 实践 中 往往 效 
AREF. Goodfellow et al. (2013b) 实验 发 现 ， 集 成 预测 权重 比例 推断 规则 比 蒙 特 卡 
罗 近 似 的 效果 更 好 ( 在 分 类 精度 方面 )。 即 使 允许 蒙特 卡 罗 近 似 采样 多 达 1000 子 网 
络 时 也 比 不 过 集成 。Gal and Ghahramani (2015) 发 现 一 些 模型 可 以 通过 二 十 个 样本 
和 蒙特 卡 罗 近 似 获得 更 好 的 分 类 精度 。 似 乎 推断 近似 的 最 佳 选择 是 与 问题 相关 的 。 

Srivastava et al. (2014) 显示 ，Dropout 比 其 他 标准 的 计算 开销 小 的 正则 化 方法 
(如 权重 衰减 、 过 滤器 范 数 约 束 和 稀 玻 激活 的 正则 化 ) 更 有 效 。Dropout 也 可 以 与 其 
他 形式 的 正则 化 合并 ， 得 到 进一步 的 提升 。 

计算 方便 是 Dropout 的 一 个 优点 。 训 练 过 程 中 使 用 Dropout 产 生 n 个 随机 二 进 制 
数 与 状态 相 乘 ， 每 个 样本 每 次 更 新 只 需 Oln) 的 计算 复杂 度 。 根 据 实现 ,也 可 能 需要 
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O(n) 的 存储 空间 来 持续 保存 这 些 二 进 制 数 ( 直到 反 向 传播 阶段 )。 使 用 训练 好 的 模 
型 推断 时 ,计算 每 个 样本 的 代价 与 不 使 用 Dropout 是 一 样 的 ， 尽 管 我 们 必须 在 开始 运 
行 推断 前 将 权重 除 以 2。 

Dropout 的 另 一 个 显著 优点 是 不 怎么 限制 适用 的 模型 或 训练 过 程 。 几 乎 在 所 有 
使 用 分 布 式 表示 旦 可 以 用 随机 梯度 下 降 训 练 的 模型 上 都 表现 很 好 。 包 括 前 馈 神经 网 
络 、 概 率 模型 ， 如 受 限 玻 尔 兹 曼 机 (Srivastava et al., 2014), 以 及 循环 神经 网 络 (Bayer 
and Osendorfer, 2014; Pascanu et al., 2014a)。 许 多 效果 差不多 的 其 他 正则 化 策略 对 
模型 结构 的 限制 更 严格 。 

虽然 Dropout 在 特定 模型 上 每 一 步 的 代价 是 微不足道 的 ， 但 在 一 个 完整 的 系统 
上 使 用 Dropout 的 代价 可 能 非常 显著 。 因 为 Dropout 是 一 个 正则 化 技术 ， 它 减少 了 模 
型 的 有 效 容量 。 为 了 抵消 这 种 影响 ， 我 们 必须 增 大 模型 规模 。 不 出 意外 的 话 ， 使 
用 Dropout 时 最 佳 验 证 集 的 误差 会 低 很 多 , 但 这 是 以 更 大 的 模型 和 更 多 训练 算法 的 迭 
代 次 数 为 代价 换 来 的 。 对 于 非常 大 的 数据 集 , 正则 化 带 来 的 泛 化 误差 减少 得 很 小 。 在 
这 些 情 况 下 ， 使 用 Dropout 和 更 大 模型 的 计算 代价 可 能 超过 正则 化 带 来 的 好 处 。 

只 有 极 少 的 训练 样本 可 用 时 ，Dropout 不 会 很 有 效 。 在 只 有 不 到 5000 的 样本 
的 Alternative Splicing 数 据 集 上 (Xiong et al, 2011)， 贝 叶 斯 神经 网 络 (Neal, 1996) 
比 Dropout 表 现 得 更 好 (Srivastava et al., 2014)。 当 有 其 他 未 分 类 的 数据 可 用 时 ， 无 
监督 特征 学 习 也 比 Dropout 更 有 优势 。 


Wager et al. (2013) 表明 ， 当 Dropout 作 用 于 线性 回归 时 ， 相 当 于 每 个 输入 特征 
具有 不 同 权重 衰减 系数 的 权重 衰减 。 每 个 特征 的 权重 衰减 系数 的 大 小 是 由 其 方差 
来 确定 的 a。 其 他 线性 模型 也 有 类 似 的 结果 。 而 对 于 深度 模型 而 言 ，Dropout 与 权重 衰 
减 是 不 等 同 的 。 

使 用 Dropout 训 练 时 的 随机 性 不 是 这 个 方法 成 功 的 必要 条 件 。 它 仅仅 是 近似 所 有 
子 模型 总 和 的 一 个 方法 。Wang and Manning (2013) 导出 了 近似 这 种 边缘 分 布 的 解 
析 解 。 他 们 的 近似 被 称 为 快速 Dropout (fast dropout ), 减 小 梯度 计算 中 的 随机 性 
而 获得 更 快 的 收敛 速度 。 这 种 方法 也 可 以 在 测试 时 应 用 , 能 够 比 权重 比例 推 朵 规则 更 
合理 地 (但 计算 也 更 昂贵 ) 近似 所 有 子 网 络 的 平均 。 快 速 Dropout 在 小 神经 网 络 上 
的 性 能 几乎 与 标准 的 Dropout 相 当 ， 但 在 大 问题 上 尚未 产生 显著 改善 或 尚未 应 用 。 

随机 性 对 实现 Dropout 的 正则 化 效果 不 是 必要 的 ， 同 时 也 不 是 充分 的 。 为 了 证 明 
这 一 点 ，Warde-Farley et al. (2014) 使 用 一 种 被 称 为 Dropout Boosting ( Dropout 
Boosting ) 的 方法 设计 了 一 个 对 照 实验 ， 具 有 与 传统 Dropout 方 法 完全 相同 的 噪声 掩 
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人 码 ， 但 缺乏 正则 化 效果 。Dropout Boosting 训 练 整个 集成 以 最 大 化 训练 集 上 的 似 然 。 
从 传统 Dropout 类 似 于 Bagging 的 角度 来 看 ， 这 种 方式 类 似 于 Boosting。 如 预期 一 样 ， 
和 单一 模型 训练 整个 网 络 相 比 ，Dropout Boosting 几 乎 没有 正则 化 效果 。 这 表明 , 使 
用 Bagging 解 释 Dropout 比 使 用 稳健 性 噪声 解释 Dropout 更 好 。 只 有 当 随 机 抽样 的 集 
成 成 员 相互 独立 地 训练 好 后 ， 才 能 达到 Bagging 集 成 的 正则 化 效果 。 

Dropout 启 发 其 他 以 随机 方法 训练 指数 量 级 的 共享 权重 的 集成 。DropConnect 是 
Dropout 的 一 个 特殊 情况 ， 其 中 一 个 标量 权重 和 单个 隐藏 单元 状态 之 间 的 每 个 乘积 
被 认为 是 可 以 丢弃 的 一 个 单元 (Wan et aL, 2013)。 随 机 池 化 是 构造 卷 积 神经 网 络 集 
成 的 一 种 随机 池 化 的 形式 ( 见 第 9.3 节 )， 其 中 每 个 卷 积 网 络 参与 每 个 特征 图 的 不 同 空 
间 位 置 。 目 前 为 止 ， Dropout 仍 然 是 最 广泛 使 用 的 隐 式 集成 方法 。 

一 个 关于 Dropout 的 重要 见解 是 , 通过 随机 行为 训练 网 络 并 平均 多 个 随机 决定 进 
行 预测 ， 实 现 了 一 种 参数 共享 的 Bagging 形 式 。 早 些 时 候 ， 我 们 将 Dropout 描 述 为 通 
过 包括 或 排除 单元 形成 模型 集成 的 Bagging。 然 而 ， 这 种 参数 共享 策略 不 一 定 要 基于 
包括 和 排除 。 原 则 上 ， 任 何 一 种 随机 的 修改 都 是 可 接受 的 。 在 实践 中 ， 我 们 必须 选 
择 让 神经 网 络 能 够 学 习 对 抗 的 修改 类 型 。 在 理想 情况 下 ， 我 们 也 应 该 使 用 可 以 快速 
近似 推断 的 模型 族 。 我们 可 以 认为 由 向 量 j 参数 化 的 任何 形式 的 修改 ， 是 对 pe 所 有 
可 能 的 值 训 练 p(y | z, u) 的 集成 。 注 意 ， 这 里 不 要 求 p 具有 有 限 数 量 的 值 。 例 如 ， 
u 可 以 是 实 值 。Srivastava et al. (2014) RH, ERA p ~ NF (3, D) 比 基 于 二 值 掩 
Dropout KMFE. HF Ely) = 1， 标 准 网 络 自动 实现 集成 的 近似 推 新 ， 而 不 需 
要 权重 比例 推断 规则 。 

目前 为 止 ， 我们 将 Dropout 介 绍 为 一 种 纯粹 高 效 近似 Bagging 的 方法 。 人 然而， 还 
有 比 这 更 进一步 的 Dropout 观 点 。Dropout 不 仅仅 是 训练 一 个 Bagging 的 集成 模型 ， 并 
且 是 共享 隐藏 单元 的 集成 模型 。 这 意味 着 无 论 其 他 隐藏 单元 是 否 在 模型 中 , 每 个 隐藏 
单元 必须 都 能 够 表现 良好 。 隐 藏 单元 必须 准备 好 进行 模型 之 间 的 交换 和 互 换 。Hinton 
et al. (2012c) 由 生物 学 的 想法 受到 启发 : 有 性 繁殖 涉及 到 两 个 不 同 生 物体 之 间 交 换 
基因 ， 进 化 产生 的 压力 使 得 基因 不 仅 是 良好 的 而 且 要 准备 好 不 同 有 机 体 之 间 的 交换 。 
这 样 的 基因 和 这 些 特点 对 环境 的 变化 是 非常 稳健 的 ， 因 为 它们 一 定 会 正确 适应 任何 
一 个 有 机 体 或 模型 不 寻常 的 特性 。 因 此 Dropout 正 则 化 每 个 隐藏 单元 不 仅 是 一 个 很 好 
的 特征 ， 更 要 在 许多 情况 下 是 良好 的 特征 。Warde-Farley et al. (2014) 将 Dropout 与 
大 集成 的 训练 相 比 并 得 出 结论 : 相 比 独立 模型 集成 获得 泛 化 误差 .， Dropout 会 带 来 额 
外 的 改进 。 

Dropout 强 大 的 大 部 分 原因 来 自 施 加 到 隐藏 单元 的 掩 码 噪 声 ， 了 解 这 一 事实 是 重 
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要 的 。 这 可 以 看 作 是 对 输入 内 容 的 信息 高 度 智能 化 、 自 适应 破坏 的 一 种 形式 ， 而 不 
是 对 输入 原始 值 的 破坏 。 例 如 ， 如 果 模型 学 得 通过 自 检 测 脸 的 隐藏 单元 hi, MAE 
R hi 对 应 于 擦 除 图 像 中 有 前 子 的 信息 。 模 型 必须 学 习 男 一 种 hi, 要 么 是 鼻子 存在 的 
宛 余 编码 ， 要 人 么 是 脸 部 的 另 一 特征 ， 如 嘴 。 传 统 的 噪声 注入 技术 ， 在 输入 端 加 非 结 
构 化 的 噪声 不 能 够 随机 地 从 脸 部 图 像 中 抹 去 关于 曙 子 的 信息 ， 除 非 噪声 的 幅度 大 到 
几乎 能 抹 去 图 像 中 所 有 的 信息 。 破 坏 提取 的 特征 而 不 是 原始 值 ， 让 破坏 过 程 充 分 利 
用 该 模型 迄今 获得 的 关于 输入 分 布 的 所 有 知识 。 

Dropout 的 另 一 个 重要 方面 是 噪声 是 乘 性 的 。 如 果 是 固定 规模 的 加 性 噪声 ， 那 么 
加 了 噪声 e 的 整流 线性 隐藏 单元 可 以 简单 地 学 会 使 hi 变 得 很 大 (使 增加 的 噪声 e 变 
得 不 显著 )。 乘 性 噪声 不 允许 这 样 病态 地 解决 噪声 鲁 棒 性 问题 。 

另 一 种 深度 学 习 算法 一 一 批 标准 化 ， 在 训练 时 各 隐藏 单 元 引入 加 性 和 乘 性 噪声 
重新 参数 化 模型 。 批 标准 化 的 主要 目的 是 改善 优化 ， 但 噪声 具有 正则 化 的 效果 ， 有 
时 没 必 要 再 使 用 Dropout。 批 标准 化 将 会 在 第 8.7.1 节 中 被 更 详细 地 讨论 。 
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在 许多 情况 下 ， 神 经 网 络 在 独立 同 分 布 的 测试 集 上 进行 评估 已 经 达到 了 人 类 表 
现 。 因 此 ， 我 们 自然 要 怀疑 这 些 模型 在 这 些 任务 上 是 否 获得 了 真正 的 人 类 层次 的 理 
解 。 为 了 探索 网 络 对 底层 任务 的 理解 层次 ， 我 们 可 以 探索 这 个 模型 错误 分 类 的 例子 。 
Szegedy et al. (2014b) 发 现 ， 在 精度 达到 人 类 水 平 的 神经 网 络 上 通过 优化 过 程 故 意 
构造 数据 点 ， 其 上 的 误差 率 接近 100% ， 模 型 在 这 个 输入 点 a! 的 输出 与 附近 的 数据 
点 了 非常 不 同 。 在 许多 情况 下 ，z 与 z 非常 近似 ， 人 类 观察 者 不 会 察觉 原始 样本 
和 对 抗 样本 ( adversarial example) 之 间 的 差异 ,但 是 网 络 会 作出 非常 不 同 的 预测 。 
见 图 7.8 中 的 例子 。 

对 抗 样本 在 很 多 领域 有 很 多 影响 ， 例 如 计算 机 安全 ， 这 超出 了 本 章 的 范围 。 然 
而 ， 它 们 在 正则 化 的 背景 下 很 有 意思 ， 因 为 我 们 可 以 通过 对 抗 训练 (adversarial 
training ) 减少 原 有 独立 同 分 布 的 测试 集 的 错误 率 一 一 在 对 抗 扰 动 的 训练 集 样本 上 训 
练 网 络 (Szegedy et al., 2014b; Goodfellow et al., 2014b)。 

Goodfellow et al. (2014b) 表明 ， 这 些 对 抗 样本 的 主要 原因 之 一 是 过 度 线性 。 神 
经 网 络 主要 是 基于 线性 块 构建 的 。 因 此 在 一 些 实验 中 ， 它 们 实现 的 整体 函数 被 证 明 
是 高 度 线 性 的 。 这 些 线性 函数 很 容易 优化 。 不 地 的 是 ， 如 果 一 个 线性 范 数 具 有 许多 
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图 7.8: 在 ImageNet 上 应 用 GoogLeNet (Szegedy et al., 2014a) 的 对 抗 样本 生成 的 演示 。 通 过 添 
加 一 个 不 可 察觉 的 小 向 量 ( 其 中 元 素 等 于 代价 函数 相对 于 输入 的 梯度 元 素 的 符号 )， 我 们 可 以 改变 
GoogLeNet 对 此 图 像 的 分 类 结果 。 经 Goodfellow et al. (2014b) 许可 转载 。 























输入 ， 那 么 它 的 值 可 以 非常 迅速 地 改变 。 如 果 我 们 用 。 改变 每 个 输入 ， 那 么 权重 为 
w 的 线性 函数 可 以 改变 cwl 之 多 ， 如 果 w 是 高 维 的 这 会 是 一 个 非常 大 的 数 。 对 
抗 训练 通过 鼓励 网 络 在 训练 数据 附近 的 局 部 区 域 恒定 来 限制 这 一 高 度 敏感 的 局 部 线 
性 行为 。 这 可 以 被 看 作 是 一 种 明确 地 向 监督 神经 网 络 引 入 局 部 恒定 先 验 的 方法 。 

对 抗 训 练 有 助 于 体现 积极 正则 化 与 大 型 函数 族 结合 的 力量 。 纯 粹 的 线性 模型 ， 
如 人 逻辑 回归 ， 由 于 它们 被 限制 为 线性 而 无 法 抵抗 对 抗 样本 。 神 经 网 络 能 够 将 函数 从 
接近 线性 转化 为 局 部 近似 恒定 ， 从 而 可 以 灵活 地 捕获 到 训练 数据 中 的 线性 趋势 同时 
学 习 抵抗 局 部 扰动 。 

对 抗 样本 也 提供 了 一 种 实现 半 监 督学 习 的 方法 。 在 与 数据 集中 的 标签 不 相关 联 
的 点 z 处 ,模型 本 身 为 其 分 配 一 些 标 签 go 模型 的 标记 未 必 是 真正 的 标签 ,但 如 
果 模 型 是 高 品质 的 ， 那 么 $ 提供 正确 标签 的 可 能 性 很 大 。 我 们 可 以 搜索 一 个 对 抗 样 
本 ZY ， 导 致 分 类 带 输 出 一 个 标签 y Ay! 隆 Y。 不 使 用 真正 的 标签 ， 而 是 由 训练 好 
的 模型 提供 标签 产生 的 对 抗 样本 被 称 为 虚拟 对 抗 样本 ( virtual adversarial example ) 
(Miyato et al., 2015)。 我 们 可 以 训练 分 类 器 为 ac 和 x 分 配 相同 的 标签 。 这 鼓励 分 类 
器 学 习 一 个 沿 着 未 标签 数据 所 在 流 形 上 任意 微小 变化 都 很 鲁 棒 的 函数 。 驱 动 这 种 方 
法 的 假设 是 ,不同 的 类 通常 位 于 分 离 的 流 形 上 ， 并 且 小 扰动 不 会 使 数据 点 从 一 个 类 
的 流 形 跳 到 另 一 个 类 的 流 形 上 。 
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如 第 5.11.3 节 所 述 ， 许 多 机 器 学 习 的 目标 旨 在 假设 数据 位 于 低 维 流 形 附 近来 区 
服 维 数 灾难 。 

一 个 利用 流 形 假设 的 早期 尝试 是 切面 距离 (tangent distance) 算法 (Simard 
et al., 1993, 1998)。 它 是 一 种 非 参 数 的 最 近邻 算法 ， 其 中 使 用 的 度量 不 是 通用 的 欧 几 
里 德 距离 ， 而 是 根据 邻近 流 形 关于 聚集 概率 的 知识 导出 的 。 这 个 算法 假设 我 们 尝试 
分 类 的 样本 和 同一 流 形 上 的 样本 具有 相同 的 类 别 。 由 于 分 类 器 应 该 对 局 部 因素 ( 对 
应 于 流 形 上 的 移动 ) 的 变化 保持 不 变 ， 一 种 合理 的 度量 是 将 点 m_ 和 a» 各 自 所 在 流 
JÉ M, 和 M» 的 距离 作为 点 as 和 zo 之 间 的 最 近邻 距离 。 然 而 这 可 能 在 计算 上 是 困 
难 的 〈 它 需要 解决 一 个 寻找 M 和 M, 最近 点 对 的 优化 问题 )， 一 种 局 部 合理 的 廉价 
替代 是 使 用 zx; 点 处 切 平面 近似 M;， 并 测量 两 条 切 平面 或 一 个 切 平面 和 点 之 间 的 距 
离 。 这 可 以 通过 求解 一 个 低 维 线性 系统 ( 就 流 形 的 维 数 而 言 ) 来 实现 。 当 然 , 这 种 算 
法 需要 制定 一 个 切 向 量 。 

受 相 关 启 发 ， 正 切 传播 (tangent prop ) 算法 (Simard et al., 1992) (图 7.9 ) YI 
练 带 有 额外 惩罚 的 神经 网 络 分 类 器 ， 使 神经 网 络 的 每 个 输出 f (ac) 对 已 知 的 变化 因素 
是 局 部 不 变 的 。 这 些 变化 因素 对 应 于 沿 着 的 相同 样本 聚集 的 流 形 的 移动 。 这 里 实现 
局 部 不 变性 的 方法 是 要 求 Vsf(z) 与 已 知 流 形 的 切 向 v? 正 交 ， 或 者 等 价 地 通过 正 
则 化 惩罚 Q 使 f dk x 的 vO 方向 的 导数 较 小 : 


a) = Y (var) ve»). (7.67) 

















这 个 正则 化 项 当然 可 以 通过 适当 的 超 参 数 缩放 ， 并 且 对 于 大 多 数 神经 网 络 ， 我 们 需 
要 对 许多 输出 求 和 (此 处 为 描述 简单 ，f(z) 为 唯一 输出 )。 与 切面 距离 算法 一 样 ， 我 
们 根据 切 向 量 推导 先 验 , 通常 从 变换 ( 如 平移 、 旋 转 和 缩放 图 像 ) 的 效果 获得 形式 知 
识 。 正 切 传 播 不 仅 用 于 监督 学 习 (Simard et aL, 1992) ， 还 在 强化 学 习 (Thrun, 1995) 
中 有 所 应 用 。 

正切 传播 与 数据 集 增强 密切 相关 。 在 这 两 种 情况 下 ， 该 算法 的 用 户 通 过 指定 一 
组 不 改变 网 络 输 出 的 转换 ， 编 码 其 先 验 知识 。 不 同 的 是 在 数据 集 增 强 的 情况 下 ， 网 
络 显 式 地 训练 正确 分 类 这 些 施加 大 量变 换 后 产生 的 不 同 输入 。 正 切 传播 不 需要 显 式 
访问 一 个 新 的 输入 点 。 取 而 代 之 ， 它 解析 地 对 模型 正则 化 从 而 在 指定 转换 的 方向 抵 
抗 扰 动 。 虽然 这 种 解析 方法 是 聪明 优雅 的 ， 但 是 它 有 两 个 主要 的 缺点 。 首 先 ， 模 型 
的 正则 化 只 能 抵抗 无 穷 小 的 扰动 。 显 式 的 数据 集 增强 能 抵抗 较 大 的 扰动 。 其 次 ,我 
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图 7.9: 正切 传播 算法 (Simard et aL, 1992) 和 流 形 正切 分 类 器 主要 思想 的 示意 图 (Rifai et al., 
2011c)， 它 们 都 正则 化 分 类 器 的 输出 函数 /zz)。 每 条 曲线 表示 不 同类 别 的 流 形 ， 这 里 表示 从 人 二 
维 空间 中 的 一 维 流 形 。 在 一 条 曲线 上 ， 我 们 选择 单个 点 并 绘制 一 个 与 类 别 流 形 〈 平行 并 接触 流 形 ) 
相 切 的 向 量 以 及 与 类 别 流 形 ( 与 流 形 正 交 ) 垂直 的 向 量 。 在 多 维 情况 下 ,可 以 存在 许多 切线 方向 和 
法 线 方向 。 我 们 希望 分 类 函数 在 垂直 于 流 形 方向 上 快速 改变 ， 并 且 在 类 别 流 形 的 方向 上 保持 不 变 。 
正切 传播 和 流 形 正 切 分 类 器 都 会 正则 化 f(x), 使 其 不 随 x 沿 流 形 的 移动 而 剧烈 变化 。 正 切 传播 需 
要 用 户 手 动 指定 正切 方向 的 计算 函数 (例如 指定 小 平移 后 的 图 像 保留 在 相同 类 别 的 流 形 中 )， 而 流 
形 正切 分 类 器 通过 训练 自 编码 器 拟 合 训练 数据 来 估计 流 形 的 正切 方向 。 我 们 将 在 第 十 四 章 中 讨论 
使 用 自 编码 器 来 估计 流 
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们 很 难 在 基于 整流 线性 单元 的 模型 上 使 用 无 限 小 的 方法 。 这 些 模型 只 能 通过 关闭 单 
元 或 缩小 它们 的 权重 才能 缩小 它们 的 导数 。 它 们 不 能 像 sigmoid 或 tanh 单 元 一 样 通过 
较 大 权重 在 高 值 处 饱和 以 收缩 导数 。 数 据 集 增强 在 整流 线性 单元 上 工作 得 很 好 ， 因 
为 不 同 的 整流 单元 会 在 每 一 个 原始 输入 的 不 同 转 换 版 本 上 被 激活 。 

正切 传播 也 涉及 到 双 反 向 传播 (Drucker and LeCun, 1992) 和 对 抗 训练 (Szegedy 
et al., 2014a; Goodfellow et al., 2014b). Xx. [n] (4 3E 1E WU] fili Jacobian B K tid), 
而 对 抗 训练 找到 原 输入 附近 的 点 ， 训 练 模型 在 这 些 点 上 产生 与 原来 输入 相同 的 输出 。 
正切 传播 和 手动 指定 转换 的 数据 集 增 强 都 要 求 模型 在 输入 变化 的 某 些 特定 的 方向 
上 保持 不 变 。 双 反 向 传播 和 对 抗 训练 都 要 求 模型 对 输入 所 有 方向 中 的 变化 (只 要 该 
变化 较 小 ) 都 应 当 保持 不 变 。 正 如 数据 集 增 强 是 正切 传播 非 无 限 小 的 版 本 ， 对 抗 训 
练 是 双 反 向 传播 非 无 限 小 的 版 本 。 

流 形 正 切 分 类 器 (Rifai et al., 2011d) 无 需 知道 切线 向 量 的 先 验 。 我 们 将 在 第 十 
四 章 看 到 ， 自 编码 器 可 以 估算 流 形 的 切 向 量 。 流 形 正切 分 类 器 使 用 这 种 技术 来 避免 
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用 户 指定 切 向 量 。 如 图 14.10 所 示 ， 这 些 佑 计 的 切 向 量 不 仅 对 图 像 经 典 几何 变换 ( 如 
转化 、 旋 转 和 缩放 ) 保持 不 变 ， 还 必须 掌握 对 特定 对 象 〈 如 移动 身体 的 部 分 ) 保持 
不 变 的 因素 。 因 此 根据 流 形 正切 分 类 器 提出 的 算法 相当 简单 : CI) 使 用 自 编码 器 通 
过 无 监督 学 习 来 学 习 流 形 的 结构 ， 以 及 (2) 如 正切 传播 ( 式 (7.67) ) 一 样 使 用 这 些 
切面 正则 化 神经 网 络 分 类 顺 。 

在 本 章 中 , 我 们 已 经 描述 了 大 多 数 用 于 正则 化 神经 网 络 的 通用 策略 。 正则 化 是 机 
需 学 习 的 中 心 主 题 ， 因 此 我 们 将 不 时 在 其 余 各 章 中 重新 回顾 。 机 器 学 习 的 另 一 个 中 
心 主题 是 优化 ,我们 将 在 下 一 章 描述 。 
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深度 学 习 算 法 在 许多 情况 下 都 涉及 到 优化 。 例如 ,模型 中 的 进行 推断 (如 PCA ) 
涉及 到 求解 优化 问题 。 我 们 经 常 使 用 解析 优化 去 证 明 或 设计 算法 。 在 深度 学 习 涉 及 
到 的 诸多 优化 问题 中 ， 最 难 的 是 神经 网 络 训 练 。 其 至 是 用 几 百 台 机 器 投入 几 天 到 几 
个 月 来 解决 单个 神经 网 络 训练 问题 ， 也 是 很 常见 的 。 因 为 这 其 中 的 优化 问题 很 重要 ， 
代价 也 很 高 ， 因 此 研究 者 们 开发 了 一 组 专门 为 此 设计 的 优化 技术 。 本 章 会 介绍 神经 
网 络 训练 中 的 这 些 优化 技术 。 

如 果 你 不 熟悉 基于 梯度 优化 的 基本 原则 ,我们 建议 回顾 第 四 章 。 该 章 简要 概述 
了 一 般 的 数值 优化 。 

本 章 主 要 关注 这 一 类 特定 的 优化 问题 ， 寻找 神经 网 络 上 的 一 组 参数 9， 它 能 显 
著 地 降低 代价 函数 7(8)， 该 代价 函数 通常 包括 整个 训练 集 上 的 性 能 评估 和 额外 的 正 
则 化 项 。 

首先 ， 我们 会 介绍 在 机 器 学 习 任 务 中 作为 训练 算法 使 用 的 优化 与 纯 优化 有 哪些 
^s]. 接 下 来 , 我们 会 介绍 导致 神经 网 络 优化 困难 的 几 个 具体 挑战 。 然后 ,我们 会 介 
绍 几 个 实用 算法 ,包括 优化 算法 本 号 和 初始 化 参数 的 策略 。 更 高 级 的 算法 能 够 在 训 
练 中 自 适 应 调整 学 习 率 ， 或 者 使 用 代价 函数 二 阶 导 数 包 含 的 信息 。 最 后 ， 我 们 会 介 
绍 几 个 将 简单 优化 算法 结合 成 高 级 过 程 的 优化 策略 ， 以 此 作为 总 结 。 














8.1 学 习 和 纯 优化 有 什么 不 同 


用 于 深度 模型 训练 的 优化 算法 与 传统 的 优化 算法 在 几 个 方面 有 所 不 同 。 机 顺 学 
习 通 常 是 间接 作用 的 。 在 大 多 数 机 器 学 习 问 题 中 ， 我 们 关注 某 些 性 能 度量 P. Hog 
义 于 测试 集 上 并 且 可 能 是 不 可 解 的 。 因此， 我 们 只 是 间接 地 优化 P。 我 们 希望 通过 
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降低 代价 函数 J(0) 来 提高 Po 这 一 点 与 纯 优 化 不 同 , 纯 优 化 最 小 化 目标 了 本身 。 训 
练 深度 模型 的 优化 算法 通常 也 会 包括 一 些 针 对 机 器 学 习 目 标 函 数 的 特定 结构 进行 的 
特 化 。 

通常 ,代价 函 数 可 写 为 训练 集 上 的 平均 ， 如 














J(0) = Ec) L(f(2;0), y), (8.1) 





其 中 工 是 每 个 样本 的 损失 函数 ，f(z;9) 是 输入 z TUT, Paata 是 经 验 分 
Wo WEIT, y 是 目标 输出 。 在 本 章 中 ， 我 们 会 介绍 不 带 正则 化 的 监督 学 习 , L 
的 变量 是 f(a;0) 和 y. 不 难 将 这 种 监督 学 习 扩 展 成 其 他 形式 ， 如 包括 0 或 者 x VE 
为 参数 ， 或 是 去 掉 参 数 y， 以 发 展 不 同形 式 的 正则 化 或 是 无 监督 学 习 。 

式 (8.1) 定义 了 训练 集 上 的 目标 函数 。 通 常 ， 我 们 更 希望 最 小 化 取 自 数据 生成 分 
布 paata 的 期 望 ， 而 不 仅仅 是 有 限 训练 集 上 的 对 应 目标 函数 : 











J* (0) = Ei. sau LFF; 0), y). (8.2) 





8.1.1 ”经验 风险 最 小 化 








机 需 学 习 算 法 的 目标 是 降低 式 (8.2) 所 示 的 期 望 泛 化 误差 。 这 个 数据 量 被 称 为 风 
BE (risk )。 在 这 里 ， 我 们 强调 该 期 望 取 自 真实 的 潜在 分 布 paata。 如 果 我 们 知道 了 真 
实 分 布 paata(z yj)， 那 么 最 小 化 风险 变 成 了 一 个 可 以 被 优化 算法 解决 的 优化 问题 。 然 
而 ， 我 们 遇 到 的 机 器 学 习 问 题 ， 通 带 是 不 知道 paata(z, 四)， 只 知道 训练 集中 的 样本 。 

将 机 器 学 习 问 题 转化 回 一 个 优化 问题 的 最 简单 方法 是 最 小 化 训练 集 上 的 期 望 损 
失 。 这 意味 着 用 训练 集 上 的 经 验 分 布 fi(z,y) 替代 真实 分 布 p(xz,y)。 现 在 ， 我 们 将 最 
小 化 经 验 风险 (empirical risk ): 








m 


Econ ILU (850), 9)] = — V LEE: 0), yO), (8.3) 


Mm ^ 
i=1 














其 中 m 表示 训练 样本 的 数目 。 

基于 最 小 化 这 种 平均 训练 误差 的 训练 过 程 被 称 为 经 验 风险 最 小 化 (C empirical 
risk minimization )。 在 这 种 情况 下 ， 机 器 学 习 仍 然 和 传统 的 直接 优化 很 相似 。 我 们 
并 不 直接 最 优化 风险 ， 而 是 最 优化 经 验 风险 ， 和 希望 也 能 够 很 大 地 降低 风险 。 一 系列 
不 同 的 理论 构造 了 一 些 条 件 ， 使 得 在 这 些 条 件 下 真实 风险 的 期 望 可 以 下 降 不 同 的 量 。 
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然而 ， 经 验 风 险 最 小 化 很 容易 导致 过 拟 合 。 高 容量 的 模型 会 简单 地 记 住 训练 集 。 
在 很 多 情况 下 ， 经 验 风 险 最 小 化 并 非 真 的 可 行 。 最 有 效 的 现代 优化 算法 是 基于 梯度 
下 降 的 ， 但 是 很 多 有 用 的 损失 函数 ， 如 0 — 1 损失 ， 没 有 有 效 的 导数 (导数 要 么 为 
零 ， 要 么 处 处 未 定义 )。 这 两 个 问题 说 明 ， 在 深度 学 习 中 我 们 很 少 使 用 经 验 风险 最 小 
化 。 反 之 ,我们 会 使 用 一 个 稍 有 不 同 的 方法 ， 我 们 真正 优化 的 目标 会 更 加 不 同 于 我 
们 希望 优化 的 目标 。 


8.1.2 ”代理 损失 函数 和 提前 终止 


有 时 ， 我 们 真正 关心 的 损失 函数 (比如 分 类 误差 ) 并 不 能 被 高 效 地 优化 。 例 如 ， 
即使 对 于 线性 分 类 器 而 言 ， 精 确 地 最 小 化 0 — 工 损失 通常 是 不 可 解 的 (复杂 度 是 输入 
维 数 的 指数 级 别 ) (Marcotte and Savard, 1992)。 在 这 种 情况 下， 我 们 通常 会 优化 代 
理 损失 函数 ( surrogate loss function )。 代 理 损失 函数 作为 原 目标 的 代理 ， 还 具备 一 
些 优点 。 例 如 ， 正 确 类 别 的 负 对 数 似 然 通常 用 作 0 — 1 损失 的 蔡 代 。 负 对 数 似 然 允许 
模型 估计 给 定 样本 的 类 别 的 条 件 概 率 ， 如 果 该 模型 效果 好 ， 那 么 它 能 够 输出 期 望 最 
小 分 类 误差 所 对 应 的 类 别 。 

在 某 些 情况 下 ， 代 理 损失 函数 比 原 函 数学 到 的 更 多 。 例 如 ， 使 用 对 数 似 然 蔡 代 
困 数 时 ， 在 训练 集 上 的 0 一 1 损失 达到 0 之 后 , 测试 集 上 的 0 一 1 损失 还 能 持续 下 降 
很 长 一 段 时 间 。 这 是 因为 即使 0 一 1 损失 期 望 是 零 时 ， 我 们 还 能 拉 开 不 同类 别 的 距离 
以 改进 分 类 器 的 鲁 棒 性 ， 获 得 一 个 更 强壮 的 、 更 值得 信赖 的 分 类 器， 从 而 ， 相 对 于 
简单 地 最 小 化 训练 集 上 的 平均 0 一 1 损失 ， 它 能 够 从 训练 数据 中 抽取 更 多 信息 。 

一 般 的 优化 和 我 们 用 于 训练 算法 的 优化 有 一 个 重要 不 同 : 训练 算法 通常 不 会 
停止 在 局 部 极 小 点 。 反 之 ， 机 器 学 习 通 党 优化 代理 损失 函数 ， 但 是 在 基于 提前 终止 
(第 7.8 节 ) 的 收敛 条 件 满足 时 停止 。 通常 ， 提 前 终止 使 用 真实 潜在 损失 函数， 如 验 
证 集 上 的 0 一 1 损失 ,并 设计 为 在 过 拟 合 发 生 之 前 终止 。 与 纯 优化 不 同 的 是 ， 提 前 终 
止 时 代理 损失 也 数 仍然 有 较 大 的 导数 ， 而 纯 优 化 终止 时 导数 较 小 。 


8.1.3 ”批量 算法 和 小 批量 算法 

机 需 学 习 算 法 和 一 般 优化 算法 不 同 的 一 点 是 ， 机 需 学 习 算 法 的 目标 函数 通常 可 
以 分 解 为 训练 样本 上 的 求 和 。 机 器 学 习 中 的 优化 算法 在 计算 参数 的 每 一 次 更 新 时 通 
常 仅 使 用 整个 代价 函数 中 一 部 分 项 来 估计 代价 函数 的 期 望 值 。 
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例如 ， 最 大 似 然 估 计 问 题 可 以 在 对 数 空间 中 分 解 成 各 个 样本 的 总 和 : 


m 


Our, = arg max ` log Pmoaa (2? , y; 0). (8.4) 
8 


i=1 


最 大 化 这 个 总 和 等 价 于 最 大 化 训练 集 在 经 验 分 布 上 的 期 望 : 














J(0) = De log Pmoaei(£, Y; 0). (8.5) 

优化 算法 用 到 的 目标 函数 7 中 的 大 多 数 属性 也 是 训练 集 上 的 期 望 。 例 如 ， 最 常 
用 的 属性 是 梯度 : 

Vo J(0) = Es y~Baata VO log Pmogéf (T, y; 0). (8.6) 














准确 计算 这 个 期 望 的 计算 代价 非常 大 ， 因 为 我 们 需要 在 整个 数据 集 上 的 每 个 样 
本 上 评估 模型 。 在 实践 中 ， 我 们 可 以 从 数据 集中 随机 采样 少量 的 样本 ， 然 后 计算 这 
些 样 本 上 的 平均 值 。 

回想 一 下 , n 个 样本 均值 的 标准 差 ( 式 (5.46) ) 是 a /m, 其 中 o 是 样本 值 真实 
的 标准 差 。 分母 Vn 表明 使 用 更 多 样本 来 估计 梯度 的 方法 的 回报 是 低 于 线性 的 。 比 
较 两 个 假想 的 梯度 计算 ,一 个 基于 100 个 样本 ， 男 一 个 基于 10,000 个 样本 。 后 者 需 
要 的 计算 量 是 前 者 的 100 倍 ， 但 却 只 降低 了 10 倍 的 均值 标准 差 。 如 果 能 够 快速 地 
计算 出 梯度 估计 值 ， 而 不 是 缓慢 地 计算 准确 值 ， 那 么 大 多 数 优化 算法 会 收银 地 更 快 
( 就 总 的 计算 量 而 言 ， 而 不 是 指 更 新 次 数 )。 

男 一 个 促使 我 们 从 小 数目 样本 中 获得 梯度 的 统计 倍 计 的 动机 是 训练 集 的 元 余 。 
在 最 坏 的 情况 下 ， 训 练 集中 所 有 的 m 个 样本 都 是 彼此 相同 的 拷贝 。 基 于 采样 的 梯度 
佑 计 可 以 使 用 单个 样本 计算 出 正确 的 梯度 ， 而 比 原来 的 做 法 少 花 了 m 倍 时 间 。 实 践 
中 ， 我 们 不 太 可 能 真 的 遇 到 这 种 最 坏 情况 ， 但 我 们 可 能 会 发 现 大 量 样本 都 对 梯度 做 
出 了 非常 相似 的 贡献 。 

使 用 整个 训练 集 的 优化 算法 被 称 为 批量 ( batch ) 或 确定 性 (deterministic ) t$ 
度 算法 ， 因 为 它们 会 在 一 个 大 批量 中 同时 处 理 所 有 样本 。 这 个 术语 可 能 有 点 令 人 困 
惑 ， 因 为 这 个 词 “ 批 量 ” 也 经 常 被 用 来 描述 小 批量 随机 梯度 下 降 算 法 中 用 到 的 小 批 
量 样 本 。 通 常 ， 术 语 “ 批 量 梯 度 下 降 ” 指 使 用 全 部 训练 集 ， 而 术语 “批量 ”单独 出 现 
时 指 一 组 样本 。 例 如 ， 我 们 普遍 使 用 术语 “批量 大 小 ”表示 小 批量 的 大 小 。 

每 次 只 使 用 单个 样本 的 优化 算法 有 时 被 称 为 随机 (stochastic ) 或 者 在线 (on- 
line) 算法 。 术 语 “ 在 线 ” 通常 是 指 从 连续 产生 样本 的 数据 流 中 抽取 样本 的 情况 ， 而 
不 是 从 一 个 固定 大 小 的 训练 集中 遍历 多 次 采样 的 情况 。 
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大 多 数 用 于 深度 学 习 的 算法 介 于 以 上 两 者 之 间 ， 使 用 一 个 以 上 ， 而 又 不 是 全 部 
的 训练 样本 。 传统 上 ,这 些 会 被 称 为 小 批量 (minibatch ) 或 小 批量 随机 ( minibatch 
stochastic) 方法 ， 现 在 通常 将 它们 简单 地 称 为 BEAL (stochastic ) WHE. 


随机 方法 的 典型 示例 是 随机 梯度 下 降 ， 这 将 在 第 8.3.1 方 中 详细 描述 。 
小 批量 的 大 小 通常 由 以 下 几 个 因素 决定 : 
。 更 大 的 批量 会 计算 更 精确 的 梯度 佑 计 ， 但 是 回报 却 是 小 于 线性 的 。 
。 极 小 批量 通常 难以 充分 利用 多 核 架 构 。 这 促使 我 们 使 用 一 些 绝对 最 小 批量 ， 低 
于 这 个 值 的 小 批量 处 理 不 会 减少 计算 时 间 。 


e. 如果 批量 处 理 中 的 所 有 样本 可 以 并 行 地 处 理 (通常 确 是 如 此 )， 那 么 内 存 消耗 
和 批量 大 小 会 正比 。 对 于 很 多 硬件 设施 ， 这 是 批量 大 小 的 限制 因素 。 





e 在 某 些 硬件 上 使 用 特定 大 小 的 数组 时 , 运行 时 间 会 更 少 。 尤其 是 在 使 用 GPU 时 ， 
通常 使 用 2 的 窜 数 作为 批量 大 小 可 以 获得 更 少 的 运行 时 间 。 一 般 ，2 的 寡 数 的 
取 值 范围 是 32 到 256，16 有 时 在 尝试 大 模型 时 使 用 。 








e 可 能 是 由 于 小 批量 在 学 习 过 程 中 加 入 了 噪声 , 它们 会 有 一 些 正 则 化 效果 (Wilson 
and Martinez, 2003)。 泛 化 误差 通常 在 批量 大 小 为 1 时 最 好 。 因 为 梯度 佑 计 的 
高 方差 ， 小 批量 训练 需要 较 小 的 学 习 率 以 保持 稳定 性 。 因 为 降低 的 学 习 率 和 消 
耗 更 多 步骤 来 过 历 整个 训练 集 都 会 产生 更 多 的 步骤， 所 以 会 导致 总 的 运行 时 间 
非常 大 。 





不 同 的 算法 使 用 不 同 的 方法 从 小 批量 中 获取 不 同 的 信息 。 有 些 算法 对 采样 误差 
比 其 他 算法 更 敏感 ， 这 通常 有 两 个 可 能 原因 。 一 个 是 它们 使 用 了 很 难 在 少量 样本 上 
精确 佑 计 的 信息 ， 妃 一 个 是 它们 以 放大 采样 误差 的 方式 使 用 了 信息 。 仅 基于 梯度 g 
的 更 新 方法 通常 相对 和 鲁 棒 ， 并 能 使 用 较 小 的 批量 获得 成 功 ， 如 100. fi HHessianóE 
阵 H, iun Hog 更 新 的 二 阶 方法 通常 需要 更 大 的 批量 ， 如 10,000。 这 些 大 批 
量 需要 最 小 化 估计 Hg 的 波动 。 假 设 五 被 精确 估计 , 但 是 有 病态 条 件数 。 乘 以 H 
或 是 其 逆 会 放大 之 前 存在 的 误差 ( 这 个 示例 中 是 指 g 的 估计 误差 )。 即 使 H 被 精确 
估计 ，9 中 非常 小 的 变化 也 会 导致 更 新 值 H g 中 非常 大 的 变化 。 当 然 , 我 们 通常 只 
会 近似 地 佑 计 互 ,， 因此 相对 于 我 们 使 用 具有 较 差 条 件 的 操作 去 估计 g, 更 新 Hg 
会 含有 更 多 的 误差 。 
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小 批量 是 随机 抽取 的 这 点 也 很 重要 。 从 一 组 样本 中 计算 出 梯度 期 望 的 无 偏 估计 
要 求 这 些 样 本 是 独立 的 。 我们 也 希望 两 个 连续 的 梯度 估计 是 互相 独立 的 , 因此 两 个 连 
续 的 小 批量 样本 也 应 该 是 彼此 独立 的 。 很 多 现实 的 数据 集 自然 排列 ， 从 而 使 得 连续 
的 样本 之 间 具 有 高 度 相关 性 。 例 如 ,假设 我 们 有 一 个 很 长 的 血液 样本 测试 结果 清单 。 
清单 上 的 数据 有 可 能 是 这 样 获取 的 ， 头 五 个 血液 样本 于 不 同时 间 段 取 自 第 一 个 病人 ， 
接 下 来 三 个 血液 样本 取 自 第 二 个 病人 , 再 随后 的 血液 样本 取 自 第 三 个 病人 , 等 等 。 如 
果 我 们 从 这 个 清单 上 顺序 抽取 样本 ， 那 么 我 们 的 每 个 小 批量 数据 的 侦 差 都 很 大 ， 
为 这 个 小 批量 很 可 能 只 代表 着 数据 集 上 众多 患者 中 的 某 一 个 患者 。 在 这 种 数据 集中 
的 顺序 有 很 大 影响 的 情况 下 ， 很 有 必要 在 抽取 小 批量 样本 前 打 乱 样本 顺序 。 对 于 非 
常 大 的 数据 集 ， 如 数据 中 心 含有 几 十 亿 样 本 的 数据 集 ， 我 们 每 次 构建 小 批量 样本 时 
都 将 样本 完全 均匀 地 抽取 出 来 是 不 大 现实 的 。 幸 运 的 是 ,实践 中 通常 将 样本 顺序 打 
乱 一 次 ， 然 后 按照 这 个 顺序 存储 起 来 就 足够 了 。 之 后 训练 模型 时 会 用 到 的 一 组 组 小 
批量 连续 样本 是 固定 的 ， 每 个 独立 的 模型 每 次 遍历 训练 数据 时 都 会 重复 使 用 这 个 顺 
序 。 然 而 ， 这 种 偏离 真实 随机 采样 的 方法 并 没有 很 严重 的 有 害 影 响 。 不 以 某 种 方式 
打 乱 样本 顺序 才 会 极 大 地 降低 算法 的 性 能 。 

很 多 机 器 学 习 上 的 优化 问题 都 可 以 分 解 成 并 行 地 计算 不 同样 本 上 单独 的 更 新 。 
换言之 ， 我 们 在 计算 小 批量 样本 X 上 最 小 化 JCX) 的 更 新 时 ， 同 时 可 以 计算 其 他 小 
批量 样本 上 的 更 新 。 这 类 异步 并 行 分 布 式 方法 将 在 第 12.1.3 节 中 进一步 讨论 。 

小 批量 随机 梯度 下 降 的 一 个 有 趣 动 机 是 ， 只 要 没有 重复 使 用 样本 ， 它 将 遵循 着 
真实 泛 化 误差 ( 式 (8.2) ) 的 梯度 。 很 多 小 批量 随机 梯度 下 降 方法 的 实现 都 会 打 乱 数 
据 顺 序 一 次 ， 然 后 多 次 遍历 数据 来 更 新 参数 。 第 一 次 遍历 时 ， 每 个 小 批量 样本 都 用 
来 计算 真实 泛 化 误差 的 无 偏 估计。 第 二 次 遍历 时 ， 佑 计 将 会 是 有 仿 的 ， 因 为 它 重 新 
抽取 了 已 经 用 过 的 样本 ， 而 不 是 从 和 原先 样本 相同 的 数据 生成 分 布 中 获取 新 的 无 偏 
的 样本 。 

我 们 不 难 从 在 线 学 习 的 情况 中 看 出 随机 梯度 下 降 最 小 化 泛 化 误差 的 原因 。 这 时 
样本 或 者 小 批量 都 是 从 数据 流 (stream) 中 抽取 出 来 的 。 换 言 之 ， 学 习 器 好 像 是 一 
个 每 次 看 到 新 样本 的 人 ， 每 个 样本 (x,y) 都 来 自 数据 生成 分 布 paata(z,y)， 而 不 是 使 
用 大 小 固定 的 训练 集 。 这 种 情况 下 ， 样 本 永远 不 会 重复 ; 每 次 更 新 的 样本 是 从 分 布 
Paata 中 采样 获得 的 无 俩 样本 。 

在 z WI y 是 离散 时 ， 以 上 的 等 价 性 很 容易 得 到 。 在 这 种 情况 下 , 泛 化 误差 
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( 式 (8.2) ) 可 以 表示 为 

(9) m 5 `> Paata (£, y)L(f (a; 0), y), (8.7) 
z y 
上 式 的 准确 梯度 为 
g = Vo J* (0) = 》 paata(@, y) VeL (f (25 0), y): (8.8) 
z y 
在 式 (8.5) 和 式 (8.6) 中 , 我 们 已 经 在 对 数 似 然 中 看 到 了 相同 的 结果 ; 现在 我 们 发 现 这 
一 点 在 包括 似 然 的 其 他 函数 也 上 也 是 成 立 的 。 在 一 些 关 于 paata M L 的 温和 假设 下 ， 
在 z WI y 是 连续 时 也 能 得 到 类 似 的 结果 。 


因此 ， 我 们 可 以 从 数据 生成 分 布 Paata 抽取 小 批量 样本 {a ,..., a0 以 及 对 
应 的 目标 y2 ， 然 后 计算 该 小 批量 上 损失 函数 关于 对 应 参数 的 梯度 


9= Ve Y. L( (49:6), y0). (8.9) 





以 此 获得 泛 化 误差 准确 梯度 的 无 偏 估 计 。 最 后 ， 在 泛 化 误差 上 使 用 SGD 方法 在 方向 
g 上 更 新 0。 

当然 ， 这 个 解释 只 能 用 于 样本 没有 重复 使 用 的 情况 。 然 而 ， 除 非 训练 集 特别 大 ， 
通常 最 好 是 多 次 人 遍历 训练 集 。 当 多 次 遍历 数据 集 更 新 时 , 只 有 第 一 遍 满 足 泛 化 误差 梯 
度 的 无 偏 估计 。 但 是 ， 额外 的 遍历 更 新 当然 会 由 于 减 小 训练 误差 而 得 到 足够 的 好 处 ， 
以 抵消 其 带 来 的 训练 误差 和 测试 误差 间 差 距 的 增加 。 

随 着 数据 集 的 规模 迅速 增长 ， 超 越 了 计算 能 力 的 增 速 ， 机 器 学 习 应 用 每 个 样本 
只 使 用 一 次 的 情况 变 得 越 来 越 常见 ， 甚 至 是 不 完整 地 使 用 训练 集 。 在 使 用 一 个 非常 
大 的 训练 集 时 ， 过 拟 合 不 再 是 问题 ， 而 欠 拟 合 和 计算 效率 变 成 了 主要 的 顾虑 。 读 者 
也 可 以 参考 Bottou and Bousquet (2008a) 中 关于 训练 样本 数 日 增长 时 ， 泛 化 误差 上 
计算 瓶颈 影响 的 讨论 。 



































8.2 ”神经 网 络 优化 中 的 挑战 


优化 通常 是 一 个 极其 困难 的 任务 。 传 统 的 机 器 学 习 会 小 心 设计 目标 函数 和 约束 ， 
以 确保 优化 问题 是 凸 的 ， 从 而 避免 一 般 优 化 问题 的 复杂 度 。 在 训练 神经 网 络 时 ， 我 
们 肯定 会 遇 到 一 般 的 非 凸 情况 。 即 使 是 凸 优化 ， 也 并 非 没 有 任何 问题 。 在 这 一 节 中 ， 
我 们 会 总 结 几 个 训练 深度 模型 时 会 涉及 到 的 主要 挑战 。 
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8.2.1 病态 


在 优化 凸 函 数 时 ， 会 遇 到 一 些 挑战 。 这 其 中 最 突出 的 是 Hessian 和 矩阵 H 的 病 
态 。 这 是 数值 优化 、 凸 优化 或 其 他 形式 的 优化 中 普遍 存在 的 问题 ， 更 多 细节 请 回顾 
第 4.3.1 节 。 

病态 问题 一 般 被 认为 存在 于 神经 网 络 训练 过 程 中 。 病 态 体 现在 随机 梯度 下 降 会 
“ 卡 ” 在 某 些 情况 ， 此 时 即使 很 小 的 更 新 步 长 也 会 增加 代价 函数 。 

回顾 式 (4.9) ， 代 价 函数 的 二 阶 泰勒 级 数 展开 预测 梯度 下 降 中 的 —eg 会 增加 








1 
369 Hg- eg'g (8.10) 


到 代价 中 。 当 58g! Hg 超过 eg! g 时， 梯度 的 病态 会 成 为 问题 。 判 断 病态 是 否 不 利 
于 神经 网 络 训练 任务 ， 我 们 可 以 监测 平方 梯度 范 数 9 g 和 g' Hg。 在 很 多 情况 中 ， 
梯度 范 数 不 会 在 训练 过 程 中 显著 缩小 ， 但 是 9 Hg 的 增长 会 超过 一 个 数量 级 。 其 结 
果 是 尽管 梯度 很 强 ， 学 习 会 变 得 非常 缓慢 ， 因 为 学 习 率 必须 收缩 以 弥补 更 强 的 曲率 。 
如 图 8.1 所 示 ， 成 功 训练 的 神经 网 络 中 ， 梯 度 显著 增加 。 





Gradient norm 
Classification error rate 
o 
e 





2 1 E] 
—50 0 50 100 150 200 250 0 50 100 150 200 250 


Training time (epochs) Training time (epochs) 





图 8.1: 梯度 下 降 通常 不 会 到 达 任何 类 型 的 临界 点 。 此 示例 中 ， 在 用 于 对 象 检 测 的 卷 积 网 络 的 整个 
训练 期 间 ， 梯 度 范 数 持续 增加 。( 左 ) 各 个 梯度 计算 的 范 数 如 何 随时 间 分 布 的 散 点 图 。 为 了 方便 作 
图 , 每 轮 仅 绘制 一 个 梯度 范 数 。 我 们 将 所 有 梯度 范 数 的 移动 平均 绘制 为 实 曲 线 。 梯 度 范 数 明显 随时 
间 增 加 ， 而 不 是 如 我 们 所 期 望 的 那样 随 训 练 过 程 收敛 到 临界 点 而 减 小 。( 右 ) 尽管 梯度 递增 ,训练 
过 程 却 相 当成 功 。 验 证 集 上 的 分 类 误差 可 以 降低 到 较 低 水 平 。 






































尽管 病态 还 存在 于 除了 神经 网 络 训练 的 其 他 情况 中 ， 有 些 适 用 于 其 他 情况 的 解 
决 病态 的 技术 并 不 适用 于 神经 网 络 。 例 如 ， 牛 顿 法 在 解决 带 有 病态 条 件 的 Hessian 4E 
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阵 的 凸 优 化 问题 时 ， 是 一 个 非常 优秀 的 工具 ,但 是 我 们 将 会 在 以 下 小 节 中 说 明 牛 顿 
法 运用 到 神经 网 络 时 需要 很 大 的 改动 。 


8.2.2 ”局 部 极 小 值 


凸 优化 问题 的 一 个 突出 特点 是 其 可 以 简化 为 寻找 一 个 局 部 极 小 点 的 问题 。 任 何 
一 个 局 部 极 小 点 都 是 全 局 最 小 点 。 有 些 凸 函数 的 底部 是 一 个 平坦 的 区 域 ， 而 不 是 单 
一 的 全 局 最 小 点 ， 但 该 平坦 区 域 中 的 任意 点 都 是 一 个 可 以 接受 的 解 。 优 化 一 个 凸 问 
题 时 ， 硅 发 现 了 任何 形式 的 临界 点 ， 我 们 都 会 知道 已 经 找到 了 一 个 不 错 的 可 行 解 。 

对 于 非 唔 函数 时 ， 如 神经 网 络 ， 有 可 能 会 存在 多 个 局 部 极 小 值 。 事实 上 ,几乎 所 
有 的 深度 模型 基本 上 都 会 有 非常 多 的 局 部 极 小 值 。 然 而 ， 我 们 会 发 现 这 并 不 是 主要 
问题 。 

由 于 模型 可 辨识 性 (model identifiability) 问题 ， 神 经 网 络 和 任意 具有 多 个 等 
效 参 数 化 潜 变 量 的 模型 都 会 具有 多 个 局 部 极 小 值 。 如 果 一 个 足够 大 的 训练 集 可 以 唯 
一 确定 一 组 模型 参数 ， 那 么 该 模型 被 称 为 可 辨认 的 。 带 有 潜 变 量 的 模型 通常 是 不 可 
辨认 的 ， 因 为 通过 相互 交换 潜 变 量 我 们 能 得 到 等 价 的 模型 。 例 如 ， 考 虑 神 经 网 络 的 
第 一 层 ， 我 们 可 以 交换 单元 i 和 单元 j 的 传人 权重 向 量 、 传 出 权重 向 量 而 得 到 等 价 
的 模型 。 如 果 神 经 网 络 有 m ER. BBA n 个 单元 , 那么 会 有 ntm 种 排列 隐藏 单 元 的 
方式 。 这 种 不 可 辨认 性 被 称 为 权重 空间 对 称 性 (weight space symmetry )。 

除了 权重 空间 对 称 性 ， 很 多 神经 网 络 还 有 其 他 导致 不 可 辨认 的 原因 。 例 如 ， TE 
任意 整流 线性 网 络 或 者 maxout 网 络 中 ,我 们 可 以 将 传人 权重 和 偏 置 扩大 a 倍 ， 然 
后 将 传 出 权重 扩大 们 ， 而 保持 模型 等 价 。 这 意味 着 ， 如 果 代 价 函 数 不 包 括 如 权重 
衰减 这 种 直接 依赖 于 权重 而 非 模型 输出 的 项 ， 那 么 整流 线性 网 络 或 者 maxout 网 络 
的 每 一 个 局 部 极 小 点 都 在 等 价 的 局 部 极 小 值 的 (m x n) 维 双 曲 线 上 。 

这 些 模 型 可 辨识 性 问题 意味 着 神经 网 络 代价 函数 具有 非常 多 、 甚 至 不 可 数 无 限 
多 的 局 部 极 小 值 。 然 而 ， 所 有 这 些 由 于 不 可 辨识 性 问题 而 产生 的 局 部 极 小 值 都 有 相 
同 的 代价 函数 值 。 因 此 ， 这 些 局 部 极 小 值 并 非 是 非 凸 所 带 来 的 问题 。 

如 果 局 部 极 小 值 相 比 全 局 最 小 点 拥有 很 大 的 代价 ， 局 部 极 小 值 会 带 来 很 大 的 隐 
患 。 我 们 可 以 构建 没有 隐藏 单元 的 小 规模 神经 网 络 ， 其 局 部 极 小 值 的 代价 比 全 局 最 
小 点 的 代价 大 很 多 (Sontag and Sussman, 1989; Brady et al., 1989; Gori and Tesi, 
1992)。 如 果 具 有 很 大 代价 的 局 部 极 小 值 是 常见 的 ， 那么 这 将 给 基于 梯度 的 优化 算法 
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带 来 极 大 的 问题 。 

对 于 实际 中 感 兴趣 的 网 络 ， 是 否 存 在 大 量 代 价 很 高 的 局 部 极 小 值 ， 优 化 算法 是 
否 会 碰 到 这 些 局 部 极 小 值 ， 都 是 尚未 解决 的 公开 问题 。 多 年 来 , 大 多 数 从 业者 认为 局 
部 极 小 值 是 困扰 神经 网 络 优化 的 常见 问题 。 如 今 ， 情况 有 所 变化 。 这 个 问题 仍然 是 学 
术 界 的 热点 问题 , 但 是 学 者 们 现在 猜想 ,对 于 足够 大 的 神经 网 络 而 言 ， 大 部 分 局 部 极 
小 值 都 具有 很 小 的 代价 函数 ， 我 们 能 不 能 找到 真正 的 全 局 最 小 点 并 不 重要 ， 而 是 需 
要 在 参数 空间 中 找到 一 个 代价 很 小 (但 不 是 最 小 ) 的 点 (Saxe et al., 2013; Dauphin 
et al., 2014; Goodfellow et al., 2015; Choromanska et al., 2014). 

很 多 从 业者 将 神经 网 络 优化 中 的 所 有 困难 都 归结 于 局 部 极 小 值 。 我 们 鼓励 从 业 
者 要 仔细 分 析 特 定 的 问题 。 一 种 能 够 排除 局 部 极 小 值 是 主要 问题 的 检测 方法 是 画 出 
梯度 范 数 随时 间 的 变化 。 如 果 梯 度 范 数 没 有 缩小 到 一 个 微小 的 值 ， 那 么 该 问题 既 不 
是 局 部 极 小 值 ， 也 不 是 其 他 形式 的 临界 点 。 在 高 维 空间 中 ， 很 难 明确 证 明 局 部 极 小 
值 是 导致 问题 的 原因 。 许 多 并 非 局 部 极 小 值 的 结构 也 具有 很 小 的 梯度 。 


8.2.3 高原、 鞍点 和 其 他 平坦 区 域 








对 于 很 多 高 维 非 凸 函数 而 言 ， 局 部 极 小 值 (以 及 极 大 值 ) 事实 上 都 远 少 于 另 一 
类 梯度 为 零 的 点 : 鞍点 。 鞍 点 附近 的 某 些 点 比 鞍 点 有 更 大 的 代价 ， 而 其 他 点 则 有 更 
小 的 代价 。 在 鞍点 处 ，Hessian 窍 阵 同 时 具有 正 负 特 征 值 。 位 于 正 特 征 值 对 应 的 特征 
向 量 方向 的 点 比 鞍 点 有 更 大 的 代价 ， 反 之， 位 于 负 特 征 值 对 应 的 特征 问 量 方向 的 点 
有 更 小 的 代价 。 我 们 可 以 将 鞍点 视 为 代价 函数 某 个 横 截 面 上 的 局 部 极 小 点 ， 同 时 也 
可 以 视 为 代价 函数 某 个 横 截 面 上 的 局 部 极 大 点 。 图 4.5 给 了 一 个 示例 。 

多 类 随机 函数 表现 出 以 下 性 质 : 低 维 空 间 中 ， 局 部 极 小 值 很 普遍 。 在 更 高 维 空 
间 中 ,局 部 极 小 值 很 罕见 ， 而 鞍点 则 很 常见 。 对 于 这 类 也 数 f: R” 一 RMA, E 
点 和 局 部 极 小 值 的 数目 比率 的 期 望 随 ”指数 级 增长 。 我 们 可 以 从 直觉 上 理解 这 种 现 
象 一 一 Hessian 和 矩阵 在 局 部 极 小 点 处 只 有 正 特 征 值 。 而 在 蒂 点 处 ，Hessian 4% DU [a] 
时 具有 正 负 特 征 值 。 试 想 一 下 ， 每 个 特征 值 的 正 负 号 由 抛 硬币 决定 。 在 一 维 情况 下 ， 
很 容易 抛 重 币 得 到 正面 朝 上 一 次 而 获取 局 部 极 小 点 。 在 维 空间 中 ， 要 抛掷 n 次 便 
币 都 正面 朝 上 的 难度 是 指数 级 的 。 具 体 可 以 参考 Dauphin et al. (2014)， 它 回顾 了 相 
关 的 理论 工作 。 

很 多 随机 函数 一 个 惊人 性 质 是 ， 当 我 们 到 达 代 价 较 低 的 区 间 时 ，Hessian 矩阵 
的 特征 值 为 正 的 可 能 性 更 大 。 和 抛 硬币 类 比 ， 这 意味 着 如 果 我 们 处 于 低 代价 的 临界 











ww ai bbc. com rH BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
244 PAE ”深度 模型 中 的 优化 


点 时 , 抛 毛 硬币 正面 朝 上 n 次 的 概率 更 大 。 这 也 意味 着 , 局 部 极 小 值 具 有 低 代 价 的 可 
能 性 比 高 代价 要 大 得 多 。 具 有 高 代价 的 临界 点 更 有 可 能 是 鞍点 。 具 有 极 高 代价 的 临 
界 点 就 很 可 能 是 局 部 极 大 值 了 。 

以 上 现象 出 现在 许多 种 类 的 随机 函数 中 。 那 么 是 否 在 神经 网 络 中 也 有 发 生 呢 ? 
Baldi and Hornik (1989) 从 理论 上 证 明 ,， 不 具 非 线性 的 浅 层 自 编码 器 〈 第 十 四 章 中 
将 介绍 的 一 种 将 输出 训练 为 输入 拷贝 的 前 馈 网 络 ) 只 有 全 局 极 小 值 和 较 点 ， 没 有 代 
价 比 全 局 极 小 值 更 大 的 局 部 极 小 值 。 他 们 还 发 现 这 些 结果 能 够 扩展 到 不 具 非 线性 的 
更 深 的 网 络 上 , 不 过 没有 证 明 。 这 类 网 络 的 输出 是 其 输入 的 线性 函数 , 但 它们 仍然 有 
助 于 分 析 非 线性 神经 网 络 模型 ， 因 为 它们 的 损失 函数 是 关于 参数 的 非 凸 函数 。 这 类 
网 络 本 质 上 是 多 个 矩阵 组 合 在 一 起 。Saxe et al. (2013) 精确 解析 了 这 类 网 络 中 完整 
的 学 习 动 态 ， 表 明 这 些 模型 的 学 习 能 够 捕捉 到 许多 在 训练 具有 非 线 性 激活 函数 的 深 
度 模 型 时 观察 到 的 定性 特征 。Dauphin et al. (2014) 通过 实验 表明 ， 真 实 的 神经 网 
络 也 存在 包含 很 多 高 代价 鞍点 的 损失 困 数 。Choromanska et al. (2014) 提供 了 额外 
的 理论 论点 ， 表 明 另 一 类 和 神经 网 络 相关 的 高 维 随机 函数 也 满足 这 种 情况 。 

鞍点 激增 对 于 训练 算法 来 说 有 哪些 影响 呢 ? 对 于 只 使 用 梯度 信息 的 一 阶 优 化 算 
法 而 言 ， 目 前 情况 还 不 清楚 。 园 点 附近 的 梯度 通常 会 非常 小 。 另 一 方面 ,实验 中 梯度 
下 降 似 乎 可 以 在 许多 情况 下 逃离 鞍点 。Goodfellow et al. (2015) 可 视 化 了 最 新 神经 
网 络 的 几 个 学 习 轨 迹 ， 图 8.2 给 了 一 个 例子 。 这 些 可 视 化 显示 ， 在 突出 的 鞍点 附近 ， 
代价 函数 都 是 平坦 的 ， 权 重 都 为 零 。 但 是 他 们 也 展示 了 梯度 下 降 轨 迹 能 够 迅速 逸 出 
该 区 间 。Goodfellow et al. (2015) 也 主张 ， 应 该 可 以 通过 分 析 来 表明 连续 时 间 的 梯度 
下 降 会 逃离 而 不 是 吸引 到 鞍点 ， 但 对 梯度 下 降 更 现实 的 使 用 场景 来 说 ， 情 况 或 许 会 
有 所 不 同 。 

对 于 牛顿 法 而 言 ， 鞍 点 显然 是 一 个 问题 。 梯 度 下 降 旨 在 朝 “ 下 坡 ” 移动 ， 而 非 
明确 寻求 临界 点 。 而 牛顿 法 的 目标 是 寻求 梯度 为 零 的 点 。 如 果 没 有 适当 的 修改 ， 牛 
顿 法 就 会 跳 进 一 个 鞍点 。 高 维 空间 中 坑 点 的 激增 或 许 解释 了 在 神经 网 络 训 练 中 为 什 
么 二 阶 方法 无 法 成 功 取代 梯度 下 降 。Dauphin et al. (2014) 介绍 了 二 阶 优化 的 无 鞍 
牛顿 法 ( saddle-free Newton method )， 并 表明 和 传统 算法 相 比 有 显著 改进 。 二 阶 方 
法 仍然 难以 扩展 到 大 型 神经 网 络 ， 但 是 如 果 这 类 无 鞍 算 法 能 够 扩展 的 话 ， 还 是 很 有 
希望 的 。 

除了 极 小 值 和 鞍点 ， 还 存在 其 他 梯度 为 零 的 点 。 例 如 从 优化 的 角度 看 与 较 点 很 
相似 的 极 大 值 , 很 多 算法 不 会 被 吸引 到 极 大 值 , 除了 未 经 修改 的 牛顿 法 。 和 极 小 值 一 
样 ， 许 多 种 类 的 随机 函数 的 极 大 值 在 高 维 空间 中 也 是 指数 级 稀少 。 
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图 8.2: 神经 网 络 代价 函数 的 可 视 化 。 这 些 可 视 化 对 应 用 于 真实 对 象 识别 和 自然 语言 处 理 任务 的 前 
馈 神 经 网 络 、 卷 积 网 络 和 循环 网 络 而 言 是 类 似 的 。 令 人 惊讶 的 是 , 这 些 可 视 化 通常 不 会 显示 出 很 多 
明显 的 障碍 。 大 约 2012 年 ， 在 随机 梯度 下 降 开始 成 功 训练 非常 大 的 模型 之 前 ， 相 比 这 些 投影 所 显 
示 的 神经 网 络 代价 函数 的 表面 通常 被 认为 有 更 多 的 非 凸 结构 。 该 投影 所 显示 的 主要 障碍 是 初始 参 
数 附近 的 高 代价 鞍点 ， 但 如 由 蓝 色 路 径 所 示 ，SGD 训练 轨迹 能 轻易 地 逃脱 该 通 点 。 大 多 数 训 练 时 
间 花 费 在 横 穿 代价 函数 中 相对 平坦 的 峡谷 ， 可 能 由 于 梯度 中 的 高 噪声 、 或 该 区 域 中 Hessian 矩阵 
的 病态 条 件 ,或 者 需要 经 过 间接 的 弧 路 径 绕 过 图 中 可 见 的 高 “ 山 ”。 图 经 Goodfellow et al. (2015) 
许可 改编 。 


















































也 可 能 存在 恒 值 的 、 宽 有 旦 平坦 的 区 域 。 在 这 些 区 域 ， 梯 度 和 Hessian 和 矩阵 都 是 
零 。 这 种 退化 的 情形 是 所 有 数值 优化 算法 的 主要 问题 。 在 凸 问题 中 ， 一 个 宽 而 平坦 
的 区 间 肯 定 包 含 全 局 极 小 值 ， 但 是 对 于 一 般 的 优化 问题 而 言 ， 这 样 的 区 域 可 能 会 对 
应 着 目标 函数 中 一 个 较 高 的 值 。 


8.2.4 悬崖 和 梯度 爆炸 


多 层 神经 网 络 通常 存在 像 悬 崖 一 样 的 斜率 较 大 区 域 ， 如 图 8.3 所 示 。 这 是 由 于 几 
个 较 大 的 权重 相 乘 导致 的 。 遇 到 斜率 极 大 的 悬 岩 结构 时 ， 梯 度 更 新 会 很 大 程度 地 改 
变 参 数值 ， 通 常会 完全 跳 过 这 类 悬崖 结构 。 

不 管 我 们 是 从 上 还 是 从 下 接近 悬崖 ， 情 况 都 很 糟糕 ， 但 幸运 的 是 我 们 可 以 用 使 
用 第 10.11.1 节 介绍 的 启发 式 梯 度 截断 (gradient clipping ) 来 避免 其 严重 的 后 果 。 其 
基本 想法 源 自 梯度 并 没有 指明 最 佳 步 长 ， 只 说 明了 在 无 限 小 区 域内 的 最 佳 方向 。 当 
传统 的 梯度 下 降 算法 提议 更 新 很 大 一 步 时 ， 启 发 式 梯度 截断 会 干涉 来 减 小 步 长 ， 从 
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图 8.3: 高 度 非 线性 的 次 度 神经 网 络 或 循环 神经 网 络 的 目标 函数 通常 包含 由 几 个 参数 连 乘 而 导致 的 
参数 空间 中 人 尖锐 非 线 性 。 这 些 非 线性 在 某 些 区 域 会 产生 非常 大 的 导数 。 当 参数 接近 这 样 的 悬崖 区 
域 时 ， 梯 度 下 降 更 新 可 以 使 参数 弹射 得 非常 远 ， 可 能 会 使 大 量 已 完成 的 优化 工作 成 为 无 用 功 。 图 
经 Pascanu et al. (2013a) 许可 改编 。 




















而 使 其 不 太 可 能 走出 梯度 近似 为 最 陡 下 降 方向 的 悬崖 区 域 。 巧 崖 结构 在 循环 神经 网 
络 的 代价 函数 中 很 常见 ， 因 为 这 类 模型 会 涉及 到 多 个 因子 的 相 习 ,其 中 每 个 因子 对 
应 一 个 时 间 步 。 因 此 ， 长 期 时 间 序 列 会 产生 大 量 相 乘 。 








8.2.5 ”长 期 依赖 


当 计 算 图 变 得 极 深 时 ， 神 经 网 络 优化 算法 会 面临 的 另外 一 个 难题 就 是 长 期 依 
赖 问题 一 一 由 于 变 次 的 结构 使 模型 形 失 了 学 习 到 先前 信息 的 能 力 ， 让 优化 变 得 极 
其 困难 。 深 层 的 计算 图 不 仅 存 在 于 前 馈 网 络 ， 还 存在 于 之 后 介绍 的 循环 网 络 中 (在 
第 十 章 中 描述 )。 因 为 循环 网 络 要 在 很 长 时 间 序 列 的 各 个 时 刻 重复 应 用 相同 操作 来 构 
建 非常 深 的 计算 图 ， 并 日 模 型 参数 共享 ， 这 使 问题 更 加 凸显 。 
例如 ,假设 某 个 计算 图 中 包含 一 条 反复 与 矩阵 W 相 乘 的 路 径 。 那 么 t+ 步 后 ， 相 
当 于 乘 以 We 假设 W 有 特征 值 分 解 W= Vdiag(A) V !. 在 这 种 简单 的 情况 下 ， 
很 容易 看 出 
W' = (Vdiag(A) V)! = Vdiag(A)! V+. (8.11) 


当 特 征 值 A; 不 在 1 附近 时 , GEAR EAR 1 则 会 爆炸 ; 若 小 于 1 时 则 会 消失 。 梯 
度 消失 与 爆炸 问题 (vanishing and exploding gradient problem ) 是 指 该 计算 图 上 的 
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梯度 也 会 因为 diag( A) 大 幅度 变化 。 梯 度 消失 使 得 我 们 难以 知道 参数 朝 哪个 方向 移 
动能 够 改进 代价 函数 ， 而 梯度 爆炸 会 使 得 学 习 不 稳定 。 之 前 描述 的 促使 我 们 使 用 梯 
度 截 断 的 悬崖 结构 便 是 梯度 爆炸 现象 的 一 个 例子 。 

此 处 描述 的 在 各 时 间 步 重复 与 W 相 乘 非常 类 似 于 寻求 矩阵 W 的 最 大 特征 值 及 
对 应 特征 向 量 的 RDA (power method )。 从 这 个 观点 来 看 ，z' W RAZER x 
中 所 有 与 W 的 主 特征 向 量 正 交 的 成 分 。 

循环 网 络 在 各 时 间 步 上 使 用 相同 的 矩阵 玉 ， 而 前 馈 网 络 并 没有 。 因 而 即使 是 非 
第 深层 的 前 馈 网 络 也 能 一 定 程度 上 避免 梯度 消失 与 爆炸 问题 (Sussillo, 2014)。 

在 更 详细 地 描述 循环 网 络 之 后 ， 我 们 将 会 在 第 10.7 市 进一步 讨论 循环 网 络 训 练 
中 的 挑战 。 








8.2.6 ” 非 精 确 梯度 


大 多 数 优化 算法 的 先决 条 件 都 是 我 们 知道 精确 的 梯度 或 是 再 essian 和 矩阵。 在 实践 
中 ,通常 这 些 量 会 有 噪声 ， 甚 至 是 有 偏 的 估计。 几乎 每 一 个 深度 学 习 算 法 都 需要 基 
于 采样 的 估计 ， 至 少 使 用 训练 样本 的 小 批量 来 计算 梯度 。 

在 其 他 情况 ， 我 们 希望 最 小 化 的 目标 函数 实际 上 是 难以 处 理 的 。 当 目 标 函 数 不 
可 解 时 , 通常 其 梯度 也 是 难以 处 理 的 。 在 这 种 情况 下 ,我 们 只 能 近似 梯度 。 这些 问 题 
主要 出 现在 第 三 部 分 中 更 高 级 的 模型 中 。 例 如 ， 对 比 散 度 是 用 来 近似 玻 尔 效 曼 机 中 
难以 处 理 的 对 数 似 然 梯度 的 一 种 技术 。 

各 种 神经 网 络 优化 算法 的 设计 都 考虑 到 了 梯度 估计 的 缺陷 。 我 们 可 以 选择 比 真 
实 损失 函数 更 容易 佑 计 的 代理 损失 函数 来 避免 这 个 问题 。 











8.2.7 ”局 部 和 全 局 结构 间 的 弱 对 应 


迄今 为 止 , 我 们 讨论 的 许多 问题 都 是 关于 损失 函数 在 单个 点 的 性 质 一 一 耕 J(0) 
是 当前 点 9 的 病态 条 件 ， 或 者 9 在 悬崖 中 ,或 者 9 是 一 个 下 降 方 向 不 明显 的 逻 点 ， 
那么 会 很 难 更 新 当前 步 。 

如 果 该 方向 在 局 部 改进 很 大 ， 但 并 没有 指向 代价 低 得 多 的 遥远 区 域 ， 那 么 我 们 
有 可 能 在 单 点 处 克服 以 上 所 有 困难 ， 但 仍然 表现 不 佳 。 

Goodfellow et al. (2015) 认为 大 部 分 训练 的 运行 时 间 取 决 于 到 达 解 决 方案 的 轨 
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迹 长 度 。 如 图 8.2 所 示 ， 学 习 轨 迹 将 花费 大 量 的 时 间 探 寻 一 个 围绕 山形 结构 的 宽 弧 。 


点 ， 但 在 实践 中 神经 网 络 不 会 到 达 任 何 一 种 临界 点 。 图 8.1 表明 神经 网 络 通常 不 会 到 
达 梯 度 很 小 的 区 域 。 甚 至 ,这 些 临 界 点 不 一 定 存在 。 例 如, 损失 函数 — log p(y | z; 6) 
可 以 没有 全 局 最 小 点 ， 而 是 当 随 着 训练 模型 逐渐 稳定 后 ， 渐 近 地 收 敛 于 某 个 值 。 对 
于 具有 离散 的 y 和 softmax 分 布 p(y | 四 的 分 类 器 而 言 ， 若 模型 能 够 正确 分 类 训 
练 集 上 的 每 个 样本 ， 则 负 对 数 似 然 可 以 无 限 趋 近 但 不 会 等 于 零 。 同 样 地 ， 实 值 模型 
ply | e) = N (y; f(80), 87) 的 负 对 数 似 然 会 趋向 于 负 无 穷 一 一 如 果 /6) 能 够 正确 预 
测 所 有 训练 集中 的 目标 y， 学 习 算法 会 无 限制 地 增加 6。 图 8.4 给 出 了 一 个 失败 的 例 
子 ， 即 使 没有 局 部 极 小 值 和 鞍点 ， 该 例 还 是 不 能 从 局 部 优化 中 找到 一 个 良好 的 代价 
函数 值 。 
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图 8.4: 如 果 局 部 表面 没有 指向 全 局 解 ， 基 于 局 部 下 坡 移动 的 优化 可 能 就 会 失败 。 这 里 我 们 提供 一 
个 例子 , 说明 即使 在 没有 鞍点 或 局 部 极 小 值 的 情况 下 ,优化 过 程 会 如 何 失败 。 此 例 中 的 代价 函数 仅 
包含 朝向 低 值 而 不 是 极 小 值 的 渐 近 线 。 在 这 种 情况 下 ， 造 成 这 种 困难 的 主要 原因 是 初始 化 在 “ 山 ?” 
的 错误 一 侧 ， 并 且 无 法 遍历 。 在 高 维 空间 中 ,学 习 算 法 通常 可 以 环绕 过 这 样 的 高 山 ， 但 是 相关 的 轨 
迹 可 能 会 很 长 ， 并 且 导 致 过 长 的 训练 时 间 ， 如 图 8.2 所 示 。 























未 来 的 研究 需要 进一步 探索 影响 学 习 轨 迹 长 度 和 更 好 地 表征 训练 过 程 的 结 

许多 现 有 研究 方法 在 求解 具有 困难 全 局 结构 的 问题 时 ， 旨 在 寻求 良好 的 初始 点 ， 
而 不 是 开发 非 局 部 范围 更 新 的 算法 。 

梯度 下 降 和 基本 上 所 有 的 可 以 有 效 训 练 神 经 网 络 的 学 习 算 法 ， 都 是 基于 局 部 较 
小 更 新 。 之 前 的 小 节 主 要 集中 于 为 何 这 些 局 部 范围 更 新 的 正确 方向 难以 计算 。 我 们 
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也 许 能 计算 目标 函数 的 一 些 性 质 ， 如 近似 的 有 偏 梯度 或 正确 方向 估计 的 方差 。 在 这 
些 情况 下 ， 难 以 确定 局 部 下 降 能 否定 义 通 向 有 效 解 的 足够 短 的 路 径 ， 但 我 们 并 不 能 
真 的 遵循 局 部 下 降 的 路 径 。 目 标 函 数 可 能 有 诸如 病态 条 件 或 不 连续 梯度 的 问题 ， 使 
得 梯度 为 目标 函数 提供 较 好 近似 的 区 间 非 常 小 。 在 这 些 情况 下 ， 步 长 为 e 的 局 部 下 
降 可 能 定义 了 到 达 解 的 合理 的 短路 经 ， 但 是 我 们 只 能 计算 步 长 为 6 冬 e 的 局 部 下 降 
方向 。 在 这 些 情 况 下 ， 局 部 下 降 或 许 能 定义 通 向 解 的 路 径 ， 但 是 该 路 径 包 含 很 多 次 
更 新 ， 因 此 遵循 该 路 径 会 带 来 很 高 的 计算 代价 。 有 了 时， 比如 说 当 目 标 函数 有 一 个 宽 
而 平 的 区 域 ,或 是 我 们 试图 寻求 精确 的 临界 点 (通常 来 说 后 一 种 情况 只 发 生 于 显 式 
求解 临界 点 的 方法 ,如 牛顿 法 ) 时 , 局 部 信息 不 能 为 我 们 提供 任何 指导 。 在 这 些 情况 
下 ， 局 部 下 降 完 全 无 法 定义 通 向 解 的 路 径 。 在 其 他 情况 下 ， 局 部 移动 可 能 太 过 贪心 ， 
HE PROT oh, SAAR) TCH, WHA 8.4 所 示 ， 或 者 是 用 售 近 求 远 的 
方法 来 求解 问题 ， 如 图 8.2 所 示 。 目 前 ,我们 还 不 了 解 这 些 问题 中 的 哪 一 个 与 神经 网 

















不 管 哪个 问题 最 重要 ， 如 果 存 在 一 个 区 域 , 我 们 遵循 局 部 下 降 便 能 合理 地 直接 
到 达 某 个 解 ， 并 且 我 们 能 够 在 该 良好 区 域 上 初始 化 学 习 ， 那 么 这 些 问题 都 可 以 避免 。 
最 终 的 观点 还 是 建议 在 传统 优化 算法 上 研究 怎样 选择 更 佳 的 初始 化 点 ， 以 此 来 实现 
目标 更 切实 可 行 。 


8.2.8 ”优化 的 理论 限制 


一 些 理 论 结果 表明 ， 我 们 为 神经 网 络 设计 的 任何 优化 算法 都 有 性 能 
and Rivest, 1992; Judd, 1989; Wolpert and MacReady, 1997)。 通 常 这 
响 神 经 网 络 在 实践 中 的 应 用 。 

一 些 理论 结果 仪 适 用 于 神经 网 络 的 单元 输出 离散 值 的 情况 。 然 而 ， 大 多 数 神经 
网 络 单元 输出 光滑 的 连续 值 , 使 得 局 部 搜索 求解 优化 可 行 。 一 些 理论 结果 表明 , 存在 
某 类 问题 是 不 可 解 的 ， 但 很 难 判断 一 个 特定 问题 是 否 属 于 该 类 。 其 他 结果 表明 ， 寻 
找 给 定 规 模 的 网 络 的 一 个 可 行 解 是 很 困难 的 ， 但 在 实际 情况 中 ， 我 们 通过 设置 更 多 
参数 ， 使 用 更 大 的 网 络 ， 能 轻松 找到 可 接受 的 解 。 此 外 ， 在 神经 网 络 训练 中 ， 我 们 
通常 不 关注 某 个 函数 的 精确 极 小 点 ， 而 只 关注 将 其 值 下 降 到 足够 小 以 获得 一 个 良好 
的 泛 化 误差 。 对 优化 算法 是 否 能 完成 此 目标 进行 理论 分 析 是 非常 困难 的 。 因 此 ， 研 
究 优 化 算法 更 现实 的 性 能 上 界 仍然 是 学 术 界 的 一 个 重要 目标 。 
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8.3 ”基本 算法 


之 前 我 们 已 经 介绍 了 梯度 下 降 (第 4.3 节 )， 即 沿 着 整个 训练 集 的 梯度 方向 下 降 。 
这 可 以 使 用 随机 梯度 下 降 很 大 程度 地 加 速 ， 沿 着 随机 挑选 的 小 批量 数据 的 梯度 下 降 
方向 ， 就 像 第 5.9 节 和 第 8.1.3 节 中 讨论 的 一 样 。 


8.3.1 ”随机 梯度 下 降 


随机 梯度 下 降 (SGD ) 及 其 变种 很 可 能 是 一 般 机 器 学 习 中 应 用 最 多 的 的 优化 算 
法 ,特别 是 在 深度 学 习 中 。 如 第 8.1.3 节 中 所 讨论 的 ,按照 数据 生成 分 布 抽取 m A) 
批量 (独立 同 分 布 的 ) 样本 ， 通 过 计算 它们 梯度 均值 ， 我 们 可 以 得 到 梯度 的 无 偏 信 
ite 

算法 8.1 展 示 了 如 何 沿 着 这 个 梯度 的 估计 下 降 。 
算法 8.1 随机 梯度 下 降 (SGD) 在 第 刀 个 训练 迁 代 的 更 新 


Require: 学 习 率 e; 
Require: 初始 参数 0 
while 停止 准则 未 满足 do 
从 训练 集中 采 包 含 m 个 样本 (300, ..., a0) 的 小 批量 ， 其 中 a? 对 应 目标 为 
y? 。 
计算 梯度 估计 : ge HL VeY, L( (2; 0), y?) 
应 用 更 新 : 0 — 0 — eg 


end while 




















SGD 算法 中 的 一 个 关键 参数 是 学 习 率 。 之 前 ， 我 们 介绍 的 SGD 使 用 固定 的 学 
习 率 。 在 实践 中 ， 有 必要 随 着 时 间 的 推移 逐渐 降低 学 习 率 ， 因 此 我 们 将 第 e 步 迭 代 
的 学 习 率 记 作 ex. 

这 是 因为 SGD 中 梯度 估计 引入 的 噪声 源 Cm. 个 训练 样本 的 随机 采样 ) 并 不 会 
在 极 小 点 处 消失 。 相 比 之 下 ， 当 我 们 使 用 批量 梯度 下 降 到 达 极 小 点 时 ， 整 个 代价 函 
数 的 真实 梯度 会 变 得 很 小 , 之 后 为 0, 因此 批量 梯度 下 降 可 以 使 用 固定 的 学 习 率 。 D 
证 SGD 收敛 的 一 个 充分 条 件 是 





> ex 一 oo, (8.12) 
k=1 


ww ai bt. com OD HEB BO D D 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
8.3 基本 算法 251 


H. 
ex < oo. (8.13) 


Ms 


> 
ll 


1 


实践 中 ， 一 般 会 线性 衰减 学 习 率 直到 第 7 次 迭代 : 





Ek = (1 — a)eo + ae, (8.14) 





其 中 as E, Ær PERZIE, —H e 保持 常数 。 

学 习 率 可 通过 试验 和 误差 来 选取 ,通常 最 好 的 选择 方法 是 监测 目标 函数 值 随时 
间 变 化 的 学 习 曲 线 。 与 其 说 是 科学 ， 这 更 像 是 一 门 艺术 ， 我 们 应 该 谨慎 地 参考 关于 
这 个 问题 的 大 部 分 指导 。 使 用 线性 策略 时 ， 需 要 选择 的 参数 为 e，er，7r。 通常 7 被 
设 为 需要 反复 遍历 训练 集 几 百 次 的 迭代 次 数 。 通 常 er 应 设 为 大 约 eo 的 1%。 主 要 问 
题 是 如 何 设置 coo A eo 太 大 ， 学 习 曲 线 将 会 剧烈 振荡 ;代价 函数 值 通常 会 明显 增 
加 。 温 和 的 振荡 是 良好 的 ， 容 易 在 训练 随机 代价 函数 (例如 使 用 Dropout 的 代价 也 
T) 时 出 现 。 如 果 学 习 率 太 小 ， 那 么 学 习 过 程 会 很 缓慢 。 如 果 初 始 学 习 率 太 低 ,那么 
学 习 可 能 会 卡 在 一 个 相当 高 的 代价 值 。 通常 ， 就 总 训练 时 间 和 最 终 代 价值 而 言 ， 最 
优 初 始 学 习 率 的 效果 会 好 于 大 约 迭 代 100 次 左右 后 最 佳 的 效果 。 因 此 ， 通常 最 好 是 
检测 最 早 的 几 轮 迭代 ， 选 择 一 个 比 在 效果 上 表现 最 佳 的 学 习 率 更 大 的 学 习 率 , 但 又 
不 能 太 大 导致 严重 的 震 沪 。 

SGD 及 相关 的 小 批量 亦 或 更 广义 的 基于 梯度 优化 的 在 线 学 习 算 法 ， 一 个 重要 的 
性 质 是 每 一 步 更 新 的 计算 时 间 不 依赖 训练 样本 数目 的 多 寞 。 即 使 训练 样本 数目 非常 
大 时 ， 它 们 也 能 收敛 。 对 于 足够 大 的 数据 集 ，SGD 可 能 会 在 处 理 整 个 训练 集 之 前 就 
收敛 到 最 终 测 试 集 误 差 的 某 个 固定 容 差 范围 内 。 

研究 优化 算法 的 收敛 率 , 一 般 会 衡量 额外 误差 ( excess error) J(0) 一 mine J(0), 
即 当 前 代价 函数 超出 最 低 可 能 代价 的 量 。SGD I HIT REST, k 步 迭 代 后 的 额外 
误差 量 级 是 Oz) ERD Pæ O(%)。 除 非 假定 额外 的 条 件 ， 否 则 这 些 界限 
不 能 进一步 改进 。 批 量 梯度 下 降 在 理论 上 比 随机 梯度 下 降 有 更 好 的 收敛 率 。 然 而 ， 
Cramér-Rao 界限 (Cramér, 1946; Rao, 1945) 指出 ， 泛 化 误差 的 下 降 速度 不 会 快 于 
O(f)。Bottou and Bousquet (2008b) 因此 认为 对 于 机 器 学 习 任 务 ， 不 值得 探寻 收敛 
RF O) 的 优化 算法 一 一 更 快 的 收敛 可 能 对 应 着 过 拟 合 。 此 外 , W^ gre us T BG 
机 梯度 下 降 在 少量 更 新 步 之 后 的 很 多 优点 。 对 于 大 数据 集 ，SGD 只 需 非 常 少量 样本 
计算 梯度 从 而 实现 初始 快速 更 新 ， 远 远 超过 了 其 缓慢 的 渐 近 收敛 。 本 章 剩余 部 分 介 
绍 的 大 多 数 算法 在 实践 中 都 受益 于 这 种 性 质 ， 但 是 损失 了 常数 倍 O(z) 的 渐 近 分 析 。 
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我 们 也 可 以 在 学 习 过 程 中 逐渐 增 大 小 批量 的 大 小 ， 以 此 权衡 批量 梯度 下 降 和 随机 梯 


度 下 降 两 者 的 优点 。 
了 解 SGD 更 多 的 信息 ， 请 查看 Bottou (1998)。 


8.3.2 ”动量 








虽然 随机 梯度 下 降 仍然 是 非常 受 欢 迎 的 优化 方法 ， 但 其 学 习 过 程 有 时 会 很 慢 。 
动量 方法 (Polyak, 1964) BÆIR, 特别 是 处 理 高 曲率 、 小 但 一 致 的 梯度 , 或 是 
人 带 噪声 的 梯度 。 动 量 算法 积累 了 之 前 梯度 指数 级 衰减 的 移动 平均 ， 并 且 继续 沿 该 方 
向 移动 。 动 量 的 效果 如 图 8.5 所 示 。 


一 20 





一 30 
一 30 -20 —10 0 10 20 





图 8.5: 动量 的 主要 目的 是 解决 两 个 问题 ，Hessian 和 矩阵 的 病态 条 件 和 随机 梯度 的 方差 。 我 们 通 
过 此 图 说 明 动 量 如 何 克 服 这 两 个 问题 的 第 一 个 。 等 高 线 描绘 了 一 个 二 次 损失 函数 ( 具有 病态 条 





件 的 Hessian 矩阵 )。 横 跨 轮廓 的 红色 路 径 表 示 动 量 学 习 规则 所 遵循 的 路 径 ， 它 使 该 函数 最 小 化 。 
我 们 在 该 路 径 的 每 个 步骤 画 一 个 箭头 ， 表 示 梯 度 下 降 将 在 该 点 采取 的 步 又。 我 们 可 以 看 到 ,一 个 病 
态 条件 的 二 次 目标 函数 看 起 来 像 一 个 长 而 窗 的 山谷 或 具有 陡峭 边 的 峡谷 。 动 量 正确 地 纵向 穿 过 峡 
谷 ， 而 普通 的 梯度 步骤 则 会 浪费 时 间 在 峡谷 的 罕 轴 上 来 回 移 动 。 比 较 图 4.6 ， 它 也 显示 了 没有 动 
量 的 梯度 下 降 的 行为 。 





















































从 形式 上 看 ， 动 量 算法 引入 了 变量 v 充当 速度 角色 一 一 它 代 表 参 数 在 参数 空间 
移动 的 方向 和 速率 。 速 度 被 设 为 负 梯度 的 指数 衰减 平均 。 名 称 动 量 (momentum ) 
来 自 物理 类 比 ， 根 据 牛顿 运动 定律 ， 负 梯度 是 移动 参数 空间 中 粒子 的 力 。 动 量 在 物 
理学 上 定义 为 质量 乘 以 速度 。 在 动量 学 习 算法 中 ， 我 们 假设 是 单位 质量 ， 因 此 速度 
向 量 v 也 可 以 看 作 是 粒子 的 动量 。 超 参数 a c [0,1) 决定 了 之 前 梯度 的 贡献 衰减 得 有 
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多 快 。 更 新 规则 如 下 : 


Dx i i 
ve av — eVg (SX uns) (8.15) 
bos (8.16) 


速度 v 累积 了 梯度 元 素 Volt Dil L(f(a?;0), y)). FF e, a RK, 之 前 梯度 
对 现在 方向 的 影响 也 越 大 。 带 动量 的 SGD 算法 如 算法 8.2 所 示 。 


算法 8.2 使 用 动量 的 随机 梯度 下 降 ( SGD ) 

Require: 学 习 率 ec， 动量 参数 a 

Require: 初始 参数 69， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 m 个 样本 {zG)，. Dar 的 小 批量 ， 对 应 目标 为 y? 
计算 梯度 估计 : g L Ve, LC (aa 9:8), y 3) 
计算 速度 更 新 : v av- eg 
应 用 更 新 : 0 二 0 十 7 


end while 














之 前 ， 步 长 只 是 梯度 范 数 乘 以 学 习 率 。 现 在 ， 步 长 取决 于 梯度 序列 的 大 小 和 排 
列 。 当 许多 连续 的 梯度 指向 相同 的 方向 时 ， 步 长 最 大 。 如 果 动 量 算法 总 是 观测 到 梯 
E g， 那 么 它 会 在 方向 -9 上 不 停 加 速 ， 直 到 达到 最 终 速 度 ， 其 中 步 长 大 小 为 





ellgl 
IA. (8.17) 
因此 将 动量 的 超 参 数 视 为 二 有 助 于 理解 。 例 如 ，a = 0.9 对 应 着 最 大 速度 10 fi 


于 梯度 下 降 算法 。 


在 实践 中 ，a 的 一 般 取 值 为 0.5，0.9 和 0.99。 和 学 习 率 一 样 ，a 也 会 随 着 时 间 
不 断 调整 。 一 般 初始 值 是 一 个 较 小 的 值 ， 随 后 会 慢 慢 变 大 。 随 着 时 间 推 移 调整 a 没 
有 收缩 e 重要 。 

我 们 可 以 将 动量 算法 视 为 模拟 连续 时 间 下 牛顿 动力 学 下 的 粒子 。 这 种 物理 类 比 
有 助 于 直觉 上 理解 动量 和 梯度 下 降 算 法 是 如 何 表现 的 。 

粒子 在 任意 时 间 点 的 位 置 由 6( 给 定 。 粒 子 会 受到 净 力 ft)。 该 力 会 导致 粒子 
加 速 : 


ft) = 2 90. (8.18) 
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与 其 将 其 视 为 位 置 的 二 阶 微分 方程 ， 我 们 不 如 引入 表示 粒子 在 时 间 t 处 速度 的 变量 
v(t)， 将 牛顿 动力 学 重 写 为 一 阶 微分 方程 : 





v(t) = < alt), (8.19) 
f(t) = © a(t). (8.20) 





由 此 ， 动 量 算法 包括 通过 数值 模拟 求解 微分 方程 。 求 解 微分 方程 的 一 个 简单 数值 方 
法 是 欧 拉 方 法 ， 通 过 在 每 个 梯度 方向 上 小 且 有 限 的 步 来 简单 模拟 该 等 式 定义 的 动力 
学 。 

这 解释 了 动量 更 新 的 基本 形式 ,但 具体 什么 是 力 呢 ? 力 正比 于 代价 函数 的 负 梯 
BE -VeJ(9)。 该 力 推动 粒子 沿 着 代价 函数 表面 下 坡 的 方向 移动 。 梯 度 下 降 算法 基于 
每 个 梯度 简单 地 更 新 一 步 ， 而 使 用 动量 算法 的 牛顿 方案 则 使 用 该 力 改变 粒子 的 速度 。 
我 们 可 以 将 粒子 视 作 在 冰 面 上 滑行 的 冰球 。 每 当 它 沿 着 表面 最 陡 的 部 分 下 降 时 ， 它 
会 累积 继续 在 该 方向 上 滑行 的 速度 ， 直 到 其 开始 向 上 滑动 为 止 。 

另 一 个 力也 是 必要 的 。 如 果 代 价 函 数 的 梯度 是 唯一 的 力 ， 那 么 粒子 可 能 永远 不 
会 停 下 来 。 想 象 二 下 ， 假 设 理想 情况 下 冰 面 没有 摩 氛 ， 一 个 冰球 从 山谷 的 一 端 下 滑 ， 
上 升 到 另 一 端 ， 永 远 来 回 振荡 。 要 解决 这 个 问题 ， 我 们 添加 另 一 个 正比 于 一 v(t) 的 
力 。 在 物理 术语 中 ， 此 力 对 应 于 粘性 阻力 ， 就 像 粒 子 必 须 通过 一 个 抵抗 介质 ， 如 精 
浆 。 这 会 导致 粒子 随 着 时 间 推移 逐渐 失去 能 量 ， 最 终 收 剑 到 局 部 极 小 点 。 

为 什么 要 特别 使 用 一 v(t) 和 粘性 阻力 呢 ? 部 分 原因 是 因为 -v(t) 在 数学 上 的 便 
利 一 一 速度 的 整数 宕 很 容易 处 理 。 然 而 ， 其 他 物理 系统 具有 基于 速度 的 其 他 整数 宕 
的 其 他 类 型 的 阻力 。 例 如 ,颗粒 通过 空气 时 会 受到 正比 于 速度 平方 的 清流 阻力 ， 而 颗 
粒 沿 着 地 面 移动 时 会 受到 恒定 大 小 的 摩擦 力 。 这 些 选择 都 不 合适 。 滑 流 阻力 ,正比 于 
速度 的 平方 ， 在 速度 很 小 时 会 很 弱 。 不 够 强 到 使 粒子 停 下 来 。 非 零 值 初始 速度 的 粒 
子 仅 受 到 注 流 阻力 ， 会 从 初始 位 置 永 远 地 移 动 下 去 ， 和 初始 位 置 的 距离 大 概 正比 于 
OUlog 蚊 。 因 此 我 们 必须 使 用 速度 较 低 宕 次 的 力 。 如 果 宕 次 为 零 ， 相 当 于 干 摩擦, NE 
么 力 太 强 了 。 当 代价 函数 的 梯度 表示 的 力 很 小 但 非 零 时 ， 由 于 摩擦 导致 的 恒 力 会 使 
得 粒子 在 达到 局 部 极 小 点 之 前 就 停 下 来 。 粘 性 阻力 避免 了 这 两 个 问题 一 它 足 够 弱 ， 
可 以 使 梯度 引起 的 运动 直到 达到 最 小 ， 但 又 足够 强 ， 使 得 坡度 不 够 时 可 以 阻止 运动 。 
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8.3.3 Nesterov 动量 


A Nesterov 加 速 梯度 算法 (Nesterov, 1983, 2004) 启发 ，Sutskever et al. (2013) 
提出 了 动量 算法 的 一 个 变种 。 这 种 情况 的 更 新 规则 如 下 : 


m 


1 
L(f(az?:0 (i) .21 
ve QU — Veo 2 (fla ;0 c ov), y ) : (8.21) 


i=1 


0 — 0 4 v, (8.22) 











其 中 参数 a 和 e 发 挥 了 和 标准 动量 方法 中 类 似 的 作用 。Nesterov 动量 和 标准 动量 之 
间 的 区 别 体 现在 梯度 计算 上 。Nesterov 动量 中 , 梯度 计算 在 施加 当前 速度 之 后 。 因 此 ， 
Nesterov 动量 可 以 解释 为 往 标准 动量 方法 中 添加 了 一 个 校正 因子 。 完 整 的 Nesterov 
动量 算法 如 算法 8.3 所 示 。 


算法 8.3 (EH Nesterov 动量 的 随机 梯度 下 降 (SGD) 

Require: 学 习 率 e， 动 量 参数 a 

Require: 初始 参数 69， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 m 个 样本 (3/72, ..., a7? Y 的 小 批量 ， 对 应 目标 为 V9 。 
应 用 临时 更 新 : 6 二 0 二 aow 
计算 梯度 (在 临时 点 ): g — 上 Ve 5, Lf (22; 0), y?) 
计算 速度 更 新 : v av— eg 
应 用 更 新 : 0 0+v 


end while 














在 凸 批 量 梯度 的 情况 下 ，Nesterov 动量 将 额外 误差 收敛 紊 从 O(1/k) Ck 步 后 ) 
改进 到 O(1/k?), 4 Nesterov (1983) 所 示 。 可 惜 ， 在 随机 梯度 的 情况 F, Nesterov 
动量 没有 改进 收敛 率 。 
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有 些 优化 算法 本 质 上 是 非 氨 代 的 ， 只 是 求解 一 个 解 点 。 有 些 其 它 优 化 算法 本 质 
上 是 迭代 的 ， 但 是 应 用 于 这 一 类 的 优化 问题 时 ， 能 在 可 接受 的 时 间 内 收敛 到 可 接受 
的 解 ， 并 且 与 初始 值 无 关 。 深 度 学 习 训 练 算法 通常 没有 这 两 种 奢侈 的 性 质 。 深 度 学 
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习 模 型 的 训练 算法 通常 是 迭代 的 ， 因 此 要 求 使 用 者 指定 一 些 开始 迭代 的 初始 点 。 此 
外 ， 训 练 深度 模型 是 一 个 足够 困难 的 问题 ， 以 致 于 大 多 数 算法 都 很 大 程度 地 受到 初 
始 化 选择 的 影响 。 初 始点 能 够 决定 算法 是 否 收敛 ， 有些 初始 点 十 分 不 稳定 ， 使 得 该 
算法 会 遭遇 数值 困难 ， 并 完全 失败 。 当 学 习 收 敛 时 ， 初 始点 可 以 决定 学 习 收 敛 得 多 
块 ， 以 及 是 否 收敛 到 一 个 代价 高 或 低 的 点 。 此 外 ， 差 不 多 代价 的 点 可 以 具有 区 别 极 
大 的 泛 化 误差 ， 初 始点 也 可 以 影响 泛 化 。 

现代 的 初始 化 策略 是 简单 的 、 启 发 式 的 。 设 定 改进 的 初始 化 策略 是 一 项 困难 的 
任务 ， 因 为 神经 网 络 优化 至 今 还 未 被 很 好 地 理解 。 大 多 数 初始 化 策略 基于 在 神经 网 
络 初始 化 时 实现 一 些 很 好 的 性 质 。 然而 , 我 们 并 没有 很 好 地 理解 这 些 性 质 中 的 哪些 会 




















观点 看 或 许 是 有 利 的 ， 但 是 从 泛 化 的 观点 看 是 不 利 的 。 我 们 对 于 初始 点 如 何 影响 泛 
化 的 理解 是 相当 原始 的 ， 几 乎 没有 提供 如 何 选择 初始 点 的 任何 指导 。 

也 许 完全 确 知 的 唯一 特性 是 初始 参数 需要 在 不 同 单元 间 “ 破 坏 对 称 性 "。 如 果 具 
有 相同 激活 函数 的 两 个 隐藏 单元 连接 到 相同 的 输入 ， 那 么 这 些 单元 必须 具有 不 同 的 
初始 参数 。 如 果 它 们 具有 相同 的 初始 参数 ， 然 后 应 用 到 确定 性 损失 和 模型 的 确定 性 
学 习 算法 将 一 直 以 相同 的 方式 更 新 这 两 个 单元 。 即 使 模型 或 训练 算法 能 够 使 用 随机 
性 为 不 同 的 单元 计算 不 同 的 更 新 〈 例如 使 用 Dropout 的 训练 )， 通 常 来 说 ， 最 好 还 是 
初始 化 每 个 单元 使 其 和 其 他 单元 计算 不 同 的 函数 。 这 或 许 有 助 于 确保 没有 输入 模式 
丢失 在 前 向 传播 的 零 空间 中 ， 没 有 梯度 模式 丢失 在 反 向 传播 的 零 空间 中 。 每 个 单元 
计算 不 同 函数 的 目标 促使 了 参数 的 随机 初始 化 。 我 们 可 以 明确 地 搜索 一 大 组 彼此 互 
不 相同 的 基 函 数 ， 但 这 经 常会 导致 明显 的 计算 代价 。 例 如 ， 如 果 我 们 有 和 输出 一 样 
多 的 输入 ， 我 们 可 以 使 用 Gram-Schmidt 正 交 化 于 初始 的 权重 矩阵 ， 保 证 每 个 单元 
计算 彼此 非常 不 同 的 函数 。 在 高 维 空间 上 使 用 高 炉 分 布 来 随机 初始 化 ， 计 算 代价 小 
并 且 不 太 可 能 分 配 单元 计算 彼此 相同 的 函数 。 

通常 情况 下 ， 我 们 可 以 为 每 个 单元 的 偏 置 设置 启发 式 挑选 的 常数 ， 仅 随机 初始 
化 权重 。 额 外 的 参数 ( 例如 用 于 编码 预测 条 件 方差 的 参数 ) 通常 和 偏差 一 样 设 置 为 
启发 式 选择 的 常数 。 

我 们 几乎 总 是 初始 化 模型 的 权重 为 高 斯 或 均匀 分 布 中 随机 抽取 的 值 。 高 斯 或 均 
匀 分 布 的 选择 似乎 不 会 有 很 大 的 差别 ， 但 也 没有 被 详尽 地 研究 。 然而， 初始 分 布 的 
大 小 确实 对 优化 过 程 的 结果 和 网 络 泛 化 能 力 都 有 很 大 的 影响 。 

更 大 的 初始 权重 具有 更 强 的 破坏 对 称 性 的 作用 ， 有 助 于 避免 元 余 的 单元 。 它 们 
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也 有 助 于 避免 在 每 层 线性 成 分 的 前 向 或 反 向 传播 中 丢失 信号 一 一 矩阵 中 更 大 的 值 在 
和 矩阵 乘法 中 有 更 大 的 输出 。 如 果 初 始 权 重 太 大 ， 那 么 会 在 前 向 传播 或 反 向 传播 中 产 
生 爆 炸 的 值 。 在 循环 网 络 中 ， 很 大 的 权重 也 可 能 导致 混沌 (chaos) (对 于 输入 中 很 
小 的 扰动 非常 敏感 ， 导 致 确定 性 前 向 传播 过 程 表 现 随机 )。 在 一 定 程度 上 ， 梯 度 爆 炸 
问题 可 以 通过 梯度 截断 来 缓解 ( 执行 梯度 下 降 步 绝 之 前 设置 梯度 的 闵 值 )。 较 大 的 权 
重 也 会 产生 使 得 激活 函数 饱和 的 值 ， 导 致 人 饱和 单元 的 梯度 完全 丢失 。 这 些 竞 争 因素 
决定 了 权重 的 理想 初始 大 小 。 

关于 如 何 初始 化 网 络 ， 正 则 化 和 优化 有 着 非常 不 同 的 观点 。 优 化 观点 建议 权重 
应 该 足够 大 以 成 功 传播 信息 ， 但 是 正则 化 希望 其 小 一 点 。 诸 如 随机 梯度 下 降 这 类 对 
权重 较 小 的 增 量 更 新 ， 趋 于 停止 在 更 靠近 初始 参数 的 区 域 ( 不管 是 由 于 卡 在 低 梯度 
的 区 域 ， 还 是 由 于 触发 了 基于 过 拟 合 的 提前 终止 准则 ) 的 优化 算法 倾向 于 最 终 参 数 
应 接近 于 初始 参数 。 回 顾 第 7.8 节 ， 在 某 些 模型 上 ， 提 前 终止 的 梯度 下 降 等 价 于 权重 
衰减 。 在 一 般 情 况 下 ， 提 前 终止 的 梯度 下 降 和 权重 衰减 不 同 ， 但 是 提供 了 一 个 宽松 
的 类 比 去 考虑 初始 化 的 影响 。 我 们 可 以 将 初始 化 参数 9 为 Oo 类 比 于 强 置 均值 为 0o 
的 高 斯 先 验 p(9)。 从 这 个 角度 来 看 ,选择 09 接近 0 是 有 道理 的 。 这 个 先 验 表 明 , 单 
元 间 彼 此 互 不 交互 比 交 互 更 有 可 能 。 只 有 在 目标 函数 的 似 然 项 表达 出 对 交互 很 强 的 
偏好 时 ， 单 元 才 会 交互 。 另 一 方面 ， 如 果 我 们 初始 化 Oo 为 很 大 的 值 ， 那 么 我 们 的 先 
验 指定 了 哪些 单元 应 互相 交互 ， 以 及 它们 应 如 何 交 互 。 

有 些 启 发 式 方 法 可 用 于 选择 权重 的 初始 大 小 。 一 种 初始 化 m 个 输入 和 nn 输出 的 
全 连接 层 的 权重 的 启发 式 方法 是 从 分 布 U(- Zu Ju) 中 采样 权重 ， 而 Glorot et al. 
(2011a) 建议 使 用 标准 初始 化 (normalized initialization ) 


mtn m+n 


后 一 种 局 发 式 方法 初始 化 所 有 的 层 ， 折 囊 于 使 其 具有 相同 激活 方差 和 使 其 具有 相同 
梯度 方差 之 间 。 这 假设 网 络 是 不 含 非 线 性 的 链 式 矩 阵 乘法 ， 据 此 推导 得 出 。 现 实 的 神 
经 网 络 显然 会 违反 这 个 假设 ， 但 很 多 设计 于 线性 模型 的 策略 在 其 非 线性 对 应 中 的 效 
果 也 不 错 。 

Saxe et al. (2013) 推荐 初始 化 为 随机 正 交 矩阵， 仔细 挑选 负责 每 一 层 非 线性 缩 
放 或 增益 (gain) 因子 g。 他 们 得 到 了 用 于 不 同类 型 的 非 线性 激活 函数 的 特定 缩放 因 
子 。 这 种 初始 化 方案 也 是 启发 于 不 含 非 线性 的 矩 阵 相 乘 序列 的 深度 网 络 。 在 该 模型 
下 ， 这 个 初始 化 方案 保证 了 达到 收敛 所 需 的 训练 迭代 总 数 独立 于 深度 。 
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增加 缩放 因子 9 将 网 络 推 向 网 络 前 向 传播 时 激活 范 数 增加 ， 反 向 传播 时 梯度 范 
数 增 加 的 区 域 。Sussillo (2014) 表明 ， 正 确 设置 缩放 因子 足以 训练 深 达 1000 层 的 网 
络 ， 而 不 需要 使 用 正 交 初始 化 。 这 种 方法 的 一 个 重要 观点 是 ， 在 前 馈 网 络 中 ， 激 活 
和 梯度 会 在 每 一 步 前 向 传播 或 反 向 传播 中 增加 或 缩小 ， 遵 循 随机 游 走 行为 。 这 是 因 
为 前 馈 网 络 在 每 一 层 使 用 了 不 同 的 权重 矩阵 。 如 果 该 随机 游 走 调整 到 保持 范 数 ， 那 
么 前 馈 网 络 能 够 很 大 程度 地 避免 相同 权重 和 矩阵 用 于 每 层 的 梯度 消失 与 爆炸 问题 ， 如 
第 8.2.5 节 所 述 。 

可 惜 ， 这 些 初始 权重 的 最 佳 准则 往往 不 会 带 来 最 佳 效 果 。 这 可 能 有 三 种 不 同 的 
原因 。 首 先 ， 我 们 可 能 使 用 了 错误 的 标准 一 一 它 实 际 上 并 不 利于 保持 整个 网 络 信和 号 
的 范 数 。 其 次 ， 初 始 化 时 强加 的 性 质 可 能 在 学 习 开 始 进行 后 不 能 保持 。 最 后 ， 该 标 
准 可 能 成 功 提 高 了 优化 速度 ， 但 意外 地 增 大 了 泛 化 误差 。 在 实践 中 ,我 们 通常 需要 
将 权重 范围 视 为 超 参 数 ， 其 最 优 值 大 致 接近 ， 但 并 不 完全 等 于 理论 预测 。 

数值 范围 准则 的 一 个 缺点 是 ， 设 置 所 有 的 初始 权重 具有 相同 的 标准 差 ， 例 如 
专 ， 会 使 得 层 很 大 时 每 个 单一 权重 会 变 得 极其 小 。Martens (2010) 提出 了 一 种 被 称 
为 稀 朴 初始 化 (sparse initialization ) 的 蔡 代 方案 ， 每 个 单元 初始 化 为 恰好 有 个 
非 零 权 重 。 这 个 想法 保持 该 单元 输入 的 总 数量 独立 于 输入 数目 m， 而 不 使 单一 权重 
元 素 的 大 小 随 m 缩小 。 稀 玖 初始 化 有 助 于 实现 单元 之 间 在 初始 化 时 更 具 多 样 性 。 但 
fe, 它 也 非常 偏好 于 具有 很 大 高 斯 值 的 权重 。 因 为 梯度 下 降 需 要 很 长 时 间 缩 小 “不 正 
确 ” 的 大 值 ， 这 个 初始 化 方案 可 能 会 导致 某 些 单元 出 问题 ， 例 如 maxout 单元 有 几 个 
过 滤器 ， 互 相 之 间 必 须 仔 细 调 整 。 

计算 资源 允许 的 话 , 将 每 层 权重 的 初始 数值 范围 设 为 超 参数 通常 是 个 好 主意 , 使 
用 第 11.4.2 节 介绍 的 超 参 数 搜索 算法 ， 如 随机 搜索 ,挑选 这 些 数 值 范围 。 是 否 选 择 使 
用 密集 或 稀 玻 初始 化 也 可 以 设 为 一 个 超 参 数 。 作 为 蔡 代 ， 我 们 可 以 手动 搜索 最 优 初 
台 范 围 。 一 个 好 的 挑选 初始 数值 范围 的 经 验 法 则 是 观测 单个 小 批量 数据 上 的 激活 或 
梯度 的 幅度 或 标准 差 。 如 果 权 重 太 小 ， 那 么 当 激活 值 在 小 批量 上 前 向 传播 于 网 络 时 ， 
激活 值 的 幅度 会 缩小 。 通 过 重复 识别 具有 小 得 不 可 接受 的 激活 值 的 第 一 层 ， 并 提高 
其 权重 ， 最 终 有 可 能 得 到 一 个 初始 激活 全 部 合理 的 网 络 。 如 果 学 习 在 这 点 上 仍然 很 
慢 ， 观 测 梯 度 的 幅度 或 标准 差 可 能 也 会 有 所 帮助 。 这 个 过 程 原则 上 是 自动 的 ， 日 通 
常 计 算 量 低 于 基于 验证 集 误 差 的 超 参数 优化 ， 因 为 它 是 基于 初始 模型 在 单 批 数据 上 
的 行为 反馈 ， 而 不 是 在 验证 集 上 训练 模型 的 反馈 。 由 于 这 个 协议 很 长 时 间 都 被 启发 
式 使 用 ， 最 近 Mishkin and Matas (2015) 更 正式 地 研究 了 该 协议 。 

目前 为 止 ， 我 们 关注 在 权重 的 初始 化 上 。 幸 运 的 是 ， 其 他 参数 的 初始 化 通常 更 
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容易 。 





设置 偏 置 的 方法 必须 和 设置 权重 的 方法 协调 。 设 置 偏 置 为 零 通常 在 大 多 数 权重 
初始 化 方案 中 是 可 行 的 。 存 在 一 些 我 们 可 能 设置 偏 置 为 非 零 值 的 情况 : 























e 如果 偏 置 是 作为 输出 单元 ， 那 么 初始 化 偏 置 以 获取 正确 的 输出 边缘 统计 通常 是 
有 利 的 。 要 做 到 这 一 点 ， 我 们 假设 初始 权重 足够 小 ， 该 单元 的 输出 仅 由 偏 置 决 
定 。 这 说 明 设 置 偏 置 为 应 用 于 训练 集 上 输出 边缘 统计 的 激活 函数 的 道 。 例 如 ， 
如 果 输 出 是 类 上 的 分 布 ， 且 该 分 布 是 高 度 偏 态 分 布 ， 第 i 类 的 边缘 概率 由 某 个 
HE c 的 第 i 个 元 素 给 定 ， 那 么 我 们 可 以 通过 求解 方程 softmax(b) = c 来 设 
置 偏 置 向 量 bg。 这 不 仅 适 用 于 分 类 器 ， 也 适用 于 我 们 将 在 第 三 部 分 遇 到 的 模型 , 
例如 自 编 码 器 和 玻 尔 兹 曼 机 。 这 些 模 型 拥有 输出 类 似 于 输入 数据 z 的 网 络 层 ， 
非常 有 助 于 初始 化 这 些 层 的 偏 置 以 匹配 z 上 的 边缘 分 布 。 


有 时 ， 我 们 可 能 想 要 选择 偏 置 以 避免 初始 化 引起 太 大 饱和 。 例 如 ， 我 们 可 能 会 
将 ReLU 的 隐藏 单元 设 为 0.1 而 非 0， 以 避免 ReLU 在 初始 化 时 饱和 。 尽 管 这 
种 方法 违背 不 希望 偏 置 具有 很 强 输入 的 权重 初始 化 准则 。 例 如 ， 不 建议 使 用 随 
机 游 走 初始 化 (Sussillo, 2014). 


有 了 时， 一 个 单元 会 控制 其 他 单元 能 否 参 与 到 等 式 中 。 在 这 种 情况 下 ， 我 们 有 
一 个 单元 输出 ww， 另 一 个 单元 h E [0,1]， 那 么 我 们 可 以 将 h 视 作 门 ， 以 决定 
uh z 1 还 是 uh z 0。 在 这 种 情形 下 ， 我 们 希望 设置 偏 置 h， 使 得 在 初始 化 的 大 
多 数 情 况 下 hai BW, u 没有 机 会 学 习 。 例 如 ，Jozefowicz et al. (2015) 提 
议 设置 LSTM 模型 遗忘 门 的 偏 置 为 1， 如 第 10.10 节 所 述 。 
























































男 一 种 常见 类 型 的 参数 是 方差 或 精确 度 参 数 。 例 如 ， 我 们 用 以 下 模型 进行 带 条 
件 方差 估计 的 线性 回归 


ply | z) 2 Ny|w æ+ b, 1/8), (8.24) 

其 中 6 是 精确 度 参 数 。 通 常 我 们 能 安全 地 初始 化 方差 或 精确 度 参 数 为 1。 另 一 种 方 

法 假设 初始 权重 足够 接近 零 ， 设 置 偏 置 可 以 忽略 权重 的 影响 ,然后 设 定 偏 置 以 产生 
输出 的 正确 边缘 均值 ， 并 将 方差 参数 设置 为 训练 集 输出 的 边缘 方差 。 

ge nek my ht Mien ean a UM cud 

化 模型 参数 。 在 本 书 第 三 部 分 讨论 的 一 个 常用 策略 是 使 用 相同 的 输入 数据 集 ， 用 无 

| 
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练 。 即 使 是 在 一 个 不 相关 的 任务 上 运行 监督 训练 ， 有 时 也 能 得 到 一 个 比 随机 初始 化 
具有 更 快 收敛 率 的 初始 值 。 这 些 初始 化 策略 有 些 能 够 得 到 更 快 的 收敛 率 和 更 好 的 泛 
化 误差 ， 因 为 它们 编码 了 模型 初始 参数 的 分 布 信息 。 其 他 策略 显然 效果 不 错 的 原因 
主要 在 于 它们 设置 参数 为 正确 的 数值 范围 ， 或 是 设置 不 同 单元 计算 互相 不 同 的 函数 。 


8.5 ” 自 适应 学 习 率 算法 


神经 网 络 研究 员 早 就 意识 到 学 习 率 肯定 是 难以 设置 的 超 参数 之 一 ， 因 为 它 对 模 
型 的 性 能 有 显著 的 影响 。 正 如 我 们 在 第 4.3 节 和 第 8.2 节 中 所 探讨 的 ， 损 失 通 常 高度 
敏感 于 参数 空间 中 的 某 些 方向 ， 而 不 敏感 于 其 他 。 动 量 算 法 可 以 在 一 定 程度 绥 解 这 
些 问题 ,但 这 样 做 的 代价 是 引入 了 男 一 个 超 参数 。 在 这 种 情况 下 ， 自 然 会 问 有 没有 
其 他 方法 。 如 果 我 们 相信 方向 敏感 度 在 某 种 程度 是 轴 对 齐 的 ， 那 么 每 个 参数 设置 不 
同 的 学 习 率 ， 在 整个 学 习 过 程 中 自动 适应 这 些 学 习 率 是 有 道理 的 。 

Delta-bar-delta 算法 (Jacobs, 1988) 是 一 个 早期 的 在 训练 时 适应 模型 参数 各 
自学 习 率 的 启发 式 方法 。 该 方法 基于 一 个 很 简单 的 想法 ， 如 果 损 失 对 于 某 个 给 定 模 
型 参数 的 偏 导 保持 相同 的 符号 ， 那 么 学 习 率 应 该 增加 。 如 果 对 于 该 参数 的 偏 导 变化 
了 符号 ， 那 么 学 习 率 应 减 小 。 当 然 ， 这 种 方法 只 能 应 用 于 全 批量 优化 中 。 

最 近 ， 提 出 了 一 些 增 量 (或 者 基于 小 批量 ) 的 算法 来 自 适 应 模型 参数 的 学 习 率 。 
这 节 将 简要 回顾 其 中 一 些 算法 。 















































8.5.1 AdaGrad 


AdaGrad ( AdaGrad ) 算法 , 如 算法 8.4 所 示 , 独立 地 适应 所 有 模型 参数 的 学 习 
率 ， 缩 放 每 个 参数 反比 于 其 所 有 梯度 历史 平方 值 总 和 的 平方 根 (Duchi et al., 2011)。 
具有 损失 最 大 偏 导 的 参数 相应 地 有 一 个 快速 下 降 的 学 习 率 ， 而 具有 小 偏 导 的 参数 
在 学 习 率 上 有 相对 较 小 的 下 降 。 净 效果 是 在 参数 空间 中 更 为 平缓 的 倾斜 方向 会 取得 
更 大 的 进步 。 

在 凸 优 化 背景 中 ，AdaGrad 算法 具有 一 些 令 人 满意 的 理论 性 质 。 然 而 ， 经 验 上 
已 经 发 现 ， 对 于 训练 深度 神经 网 络 模型 而 言 ， 从 训练 开始 时 积累 梯度 平方 会 导致 有 
效 学 习 率 过 早 和 过 量 的 减 小 。AdaGrad 在 某 些 深度 学 习 模 型 上 效果 不 错 ， 但 不 是 全 
部 。 
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算法 8.4 AdaGrad 算法 
Require: 全 局 学 习 率 € 
Require: 初始 参数 0 
Require: 小 常数 5， 为 了 数值 稳定 大 约 设 为 1077 
初始 化 梯度 累积 变量 r= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 (30, ..., 009) 的 小 批量 ， 对 应 目标 为 W2 。 
计算 梯度 : ge VoD, L(f(a?,0), y?) 
累积 平方 梯度 : ror+gOg 
计算 更 新 : AO 一 天 9 ( 逐 元 素 地 应 用 除 和 求 平 方 根 ) 
应 用 更 新 : 0 二 0 十 Ab 


end while 











8.5.2 RMSProp 


RMSProp 算法 (Hinton, 2012) 修改 AdaGrad 以 在 非 凸 设 定 下 效果 更 好 ， 改 
变 梯度 积累 为 指数 加 权 的 移动 平均 。AdaGrad 由 在 应 用 于 凸 问题 时 快速 收 僵 。 当 应 
用 于 非 凸 函数 训练 神经 网 络 时 ， 学 习 轨 迹 可 能 穿 过 了 很 多 不 同 的 结构 ， 最 终 到 达 一 
个 局 部 是 凸 硫 的 区 域 。AdaGrad 根据 平方 梯度 的 整个 历史 收缩 学 习 率 ， 可 能 使 得 学 
习 率 在 达到 这 样 的 凸 结构 前 就 变 得 太 小 了 。RMSProp 使 用 指数 衰减 平均 以 丢弃 遥远 
过 去 的 历史 ,使 其 能 够 在 找到 凸 碗 状 结构 后 快速 收 僵 ， 它 就 像 一 个 初始 化 于 该 碗 状 
结构 的 AdaGrad 算法 实例 。 

RMSProp 的 标准 形式 如 算法 8.5 所 示 ， 结 合 Nesterov 动量 的 形式 如 算法 8.6 所 
示 。 相 比 于 AdaGrad， 使 用 移动 平均 引入 了 一 个 新 的 超 参数 p， 用 来 控制 移动 平均 的 
长 度 范围 。 

经 验 上 ，RMSProp 已 被 证 明 是 一 种 有 效 量 实用 的 深度 神经 网 络 优化 算法 。 目 前 
它 是 深度 学 习 从 业者 经 常 采 用 的 优化 方法 之 一 。 

















8.5.3 Adam 


Adam (Kingma and Ba, 2014) 是 男 一 种 学 习 率 自 适应 的 优化 算法 ,如 算法 8.7 所 
示 。“Adam” 这 个 名 字 派 生 自 短语 “adaptive moments”。 早 期 算法 背景 下 ， 它 也 许 
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算法 8.5 RMSProp 算法 
Require: 全 局 学 习 率 ec， 误 减速 率 p 
Require: 初始 参数 0 
Require: 小 常数 5， 通 常设 为 10-6( 用 于 被 小 数 除 时 的 数值 稳定 ) 
初始 化 累积 变量 + = 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 (20, ... 2009) 的 小 批量 ， 对 应 目标 为 y. 
计算 梯度 : g Ved, L(f (200,0), y) 
累积 平方 梯度 : ro pr 十 (1 一 pj)g© g 
计算 参数 更 新 : Ab = - -OOg (zig BGR) 
应 用 更 新 : 0«—0-- ^0 


end while 














最 好 被 看 作 结 合 RMSProp 和 有 具有 一 些 重要 区 别 的 动量 的 变种 。 首 先 ， 在 Adam 中 ， 
动量 直接 并 入 了 梯度 一 阶 和 矩 ( 指数 加 权 ) 的 估计 。 将 动量 加 入 RMSProp 最 直观 的 
方法 是 将 动量 应 用 于 缩放 后 的 梯度 。 结 合 缩放 的 动量 使 用 没有 明确 的 理论 动机 。 其 
次 ，Adam 包括 偏 置 修正 , 修正 从 原点 初始 化 的 一 阶 矩 ( 动量 项 ) 和 ( 非 中心 的 ) 二 
WARTE (算法 8.7 )。RMSProp 也 采用 了 GEP- GAI) 二 阶 矩 舍 计 ， 然 而 缺失 了 
修正 因子 。 因 此 , 不 像 Adam, RMSProp 二 阶 矩 估计 可 能 在 训练 初期 有 很 高 的 偏 置 。 
Adam 通常 被 认为 对 超 参数 的 选择 相当 鲁 棒 ， 尽 管 学习 率 有 时 需要 从 建议 的 默认 修 
改 。 








8.5.4 选择 正确 的 优化 算法 


在 本 节 中 ， 我 们 讨论 了 一 系列 算法 ， 通 过 自 适 应 每 个 模型 参数 的 学 习 率 以 解决 
优化 深度 模型 中 的 难题 。 此 时 ， 一 个 自然 的 问题 是 : 该 选择 哪 种 算法 呢 ? 

遗憾 的 是 ， 目 前 在 这 一 点 上 没有 达成 共识 。Schaul et al. (2014) 展示 了 许多 优 
化 算法 在 大 量 学 习 任务 上 极 具 价 值 的 比较 。 虽 然 结 果 表 明 ， 具 有 自 适 应 学 习 率 (以 
RMSProp 和 AdaDelta 为 代表 ) 的 算法 族 表现 得 相当 和 鲁 棒 ， 不 分 伯仲 ， 但 没有 哪个 
算法 能 脱颖而出 。 

目前 ， 最 流行 并 且 使 用 很 高 的 优化 算法 包括 SGD、 具 动量 的 SGD, RMSProp, 
具 动 量 的 RMSProp AdaDelta 和 Adam。 此 时 ， 选 择 哪 一 个 算法 似乎 主要 取决 于 
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算法 8.6 使 用 Nesterov 动量 的 RMSProp 算法 
Require: 全 局 学 习 率 e， 误 减速 率 p, siga 
Require: 初始 参数 6， 初始 参数 v 
初始 化 累积 变量 r= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 (20, ... oO) 的 小 批量 ， 对 应 目标 为 y? 
计算 临时 更 新 : 0 — 9 十 av 
计算 梯度 : g — LVa5, Lf (a9; 0), y®) 
累积 梯度 : re prc (1—-p)gO g 
计算 速度 更 新 : v 二 av 一 ROG (2s 逐 元 素 应 用 ) 
应 用 更 新 : 9 和 0 二 


end while 














使 用 者 对 算法 的 熟悉 程度 ( 以 便 调 节 超 参数 )。 
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算法 8.7 Adam 算法 
Require: 步 长 e (建议 默认 为 : 0.001) 
Require: 矩 估计 的 指数 衰减 速率 ，p: 和 p2 在 区 间 [0,1) 内 。 (建议 默认 为 : 分 别 
为 0.9 和 0.999 ) 
Require: 用 于 数值 稳定 的 小 常数 6 ( 建议 默认 为 : 1079) 
Require: 初始 参数 0 
初始 化 一 阶 和 二 阶 矩 变量 s = 0, r= 0 
初始 化 时 间 步 += 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 (207, ... 209 的 小 批量 ， 对 应 目标 为 y? 
计算 梯度 : g 去 Ve L(f (26?;0), yi ) 
tt+l 
更 新 有 偏 一 阶 矩 估计 : se ps (1— 01g 
更 新 有 偏 二 阶 和 矩 估 计 : r par 二 (1 一 po)gO9 
修正 一 阶 矩 的 偏差 : 8 — 
修正 二 阶 矩 的 偏差 : P« P 
计算 更 新 : Ab = “EFL 5 ” 【《 逐 元 素 应 用 操作 ) 
应 用 更 新 : 0 二 0 十 Ab 


end while 












































8.6 二 阶 近似 方法 


在 本 节 中 ， 我 们 会 讨论 训练 深度 神经 网 络 的 二 阶 方法 。 参 考 LeCun and Cortes 
(1998) 了 解 该 问题 的 早期 处 理 方法 。 为 表述 简单 起 见 ， 我们 只 考察 日 标 函 数 为 经 验 
风险 : 














à 1c 
J(8) = Ex y pos [Lf (x E f (a(?; 0), y). (8.25) 


m 


然而 ， 我 们 在 这 里 讨论 的 方法 很 容易 扩展 到 更 一 般 的 目标 函数 ， 例 如， 第 七 草 讨论 
的 包括 参数 正则 项 的 函数 。 
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8.6.1 “牛顿 法 


在 第 4.3 节 ， 我 们 介绍 了 二 阶梯 度 方法 。 与 一 阶 方法 相 比 ， 二 阶 方法 使 用 二 阶 导 
数 改进 了 优化 。 最 广泛 使 用 的 二 阶 方法 是 牛顿 法 。 我 们 现在 更 详细 地 描述 牛顿 法 , 重 
点 在 其 应 用 于 神经 网 络 的 训练 。 

牛顿 法 是 基于 二 阶 泰勒 级 数 展开 在 某 点 Oy 附近 来 近似 J(0) 的 优化 方法 ， 其 忽 
略 了 高 阶 导 数 : 








J(0) = J(00) + (0 — 00) Vo J (00) + 5(0 — 6%) H(O ~ 6), — (820) 





其 中 H Æ J 相对 于 9 的 Hessian 和 矩阵 在 09 处 的 估计 。 如 果 我 们 再 求解 这 个 函数 
的 临界 点 ， 我 们 将 得 到 牛顿 参数 更 新 规则 : 





0* = 0) — H ' VeJ(0,). (8.27) 


因此 ， 对 于 局 部 的 二 次 函数 (具有 正定 的 HO, H H :重新 调整 梯度 ， 牛 顿 法 会 直 
接 跳 到 极 小 值 。 如 果 目 标 函 数 是 凸 的 但 非 二 次 的 (有 高 阶 项 )， 该 更 新 将 是 迭代 的 ， 
得 到 和 牛顿 法 相关 的 算法 ， 如 算法 8.8 所 示 。 

对 于 非 二 次 的 表面 ， 只 要 Hessian 甜 阵 保持 正定 ,牛顿 法 能 够 迭代 地 应 用 。 这 意 
味 着 一 个 两 步 迭代 过 程 。 首 先 ， 更 新 或 计算 Hessian 逆 (通过 更 新 二 阶 近似 )。 其 次 ， 
根据 式 (8.27) 更 新 参数 。 

在 第 8.2.3 节 ， 我 们 讨论 了 牛顿 法 只 适用 于 Hessian 矩阵 是 正定 的 情况 。 在 深度 
学 习 中 ， 目 标 函 数 的 表面 通常 非 凸 (有 很 多 特征 )， 如 鞍点 。 因 此 使 用 牛顿 法 是 有 问 
题 的 。 如果 Hessian 和 矩阵 的 特征 值 并 不 都 是 正 的 ， 例如， 靠近 鞍点 处 ， 牛 顿 法 实际 上 
会 导致 更 新 朝 错误 的 方向 移动 。 这 种 情况 可 以 通过 正则 化 Hessian 矩阵 来 避免 。 常 用 
的 正则 化 策略 包括 在 Hessian 矩阵 对 角 线 上 增加 和 常数 wc。 正 则 化 更 新 变 为 




















0*=00— [H(f(80)) + al] "Vef(00). (8.28) 


这 个 正则 化 策略 用 于 牛顿 法 的 近似 ， 例 如 Levenberg-Marquardt 算法 (Levenberg, 
1944; Marquardt, 1963)， 只 要 Hessian 矩阵 的 负 特 征 值 仍然 相对 接近 零 ， 效 果 就 会 
很 好 。 在 曲率 方向 更 极端 的 情况 下 ，a 的 值 必须 足够 大 ， 以 抵消 负 特征 值 。 然 而 ， 如 
果 a 持续 增加 ，Hessian 矩阵 会 变 得 由 对 角 算 阵 oJ 主导， 通过 牛顿 法 所 选择 的 方向 
会 收敛 到 普通 梯度 除 以 a。 当 很 强 的 负 曲 率 存在 时 ,a 可 能 需要 特别 大 ， 以 致 于 牛顿 
法 比 选择 合适 学 习 率 的 梯度 下 降 的 步 长 更 小 。 
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算法 8.8 目标 为 J(0) = 157, L(f (a(9;0),y 9) 的 牛顿 法 
Require: 初始 参数 0o 
Require: 包含 m 个 样本 的 训练 集 
while 没有 达到 停止 准则 do 
计算 梯度 : g +Vo > L(f(a?;0), y?) 
计算 Hessian 4E: H — LV2»;, L(f (a; 8), y) 
+} Hessian wi: H^! 
计算 更 新 : Ae=—H'g 
应 用 更 新 : 0—0-4 Ad 


end while 











除了 目标 函数 的 某 些 特征 带 来 的 挑战 , 如 鞍点 ,牛顿 法 用 于 训练 大 型 神经 网 络 还 
受 限 于 其 显著 的 计算 负担 。Hessian 矩阵 中 元 素数 目 是 参数 数量 的 平方 ， 因 此 ， 如 果 
参数 数目 为 上 (甚至 是 在 非常 小 的 神经 网 络 中 k 也 可 能 是 百 万 级 别 )， 牛 顿 法 需要 计 
Bk x k EEI, 计算 复杂 度 为 O( 妇 )。 另 外 ， 由 于 参数 将 每 次 更 新 都 会 改变 ， 每 
次 训练 迭代 都 需要 计算 Hessian 和 矩阵 的 逆 。 其 结果 是 ， 只 有 参数 很 少 的 网 络 才 能 在 实 
际 中 用 牛顿 法 训练 。 在 本 节 的 剩余 部 分 ， 我们 将 讨论 一 些 试图 保持 牛顿 法 优点 ， 同 
时 避免 计算 障碍 的 替代 算法 。 





8.6.2 HHE 


dt gu p Ee P KR RR MEN HHEA LE (conjugate directions ) 以 有 效 避 
ff; Hessian 矩阵 求 逆 计 算 的 方法 。 这 种 方法 的 灵感 来 自 于 对 最 速 下 降 方 法 弱点 的 仔细 
研究 〈 详 细 信息 请 查看 第 4.3 节 )， 其 中 线性 搜索 迭代 地 用 于 与 梯度 相关 的 方向 上 。 
图 8.6 说 明了 该 方法 在 二 次 碗 型 目标 中 如 何 表现 的 ， 是 一 个 相当 低 效 的 来 回 往复 ， 锯 
齿 形 模 式 。 这 是 因为 每 一 个 由 梯度 给 定 的 线性 搜索 方向 ， 都 保证 正 交 于 上 一 个 线性 
搜索 方向 。 

假设 上 一 个 搜索 方向 是 &_i。 在 极 小 值 处 ， 线 性 搜索 终止 ,方向 di 处 的 方向 
PEA: VeJ(0): di_1 = 0。 因为 该 点 的 梯度 定义 了 当前 的 搜索 方向 , di = VeJ(0) 
将 不 会 贡献 于 方向 diis 因此 方向 di 正 交 于 dias RE FMEA VARIG, 方向 dea 
和 d, 之 间 的 关系 如 图 8.6 所 示 。 如 图 展示 的 ， 下 降 正 交 方 向 的 选择 不 会 保持 前 一 搜 
索 方向 上 的 最 小 值 。 这 产生 了 锯齿 形 的 过 程 。 在 当前 梯度 方向 下 降 到 极 小 值 ， 我 们 
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图 8.6: 将 最 速 下 降 法 应 用 于 二 次 代价 表面 。 在 每 个 步 又， 最 速 下 降 法 沿 着 由 初始 点 处 的 梯度 定义 
的 线 跳 到 最 低 代 价 的 点 。 这 解决 了 图 4.6 中 使 用 固定 学 习 率 所 遇 到 的 一 些 问题 ,但 即使 使 用 最 佳 步 
K, 算法 仍然 朝 最 优 方向 曲折 前 进 。 根 据 定义 ， 在 沿 着 给 定 方向 的 目标 最 小 值 处 ,最 终点 处 的 梯度 
与 该 方向 正 交 。 


















































必须 重新 最 小 化 之 前 梯度 方向 上 的 目标 。 因 此 , 通过 遵循 每 次 线性 搜索 结束 时 的 梯 
度 ， 我 们 在 某 种 程度 上 撤销 了 在 之 前 线性 搜索 的 方向 上 取得 的 进展 。 共 恩 梯 度 试 图 
解决 这 个 问题 。 

在 共 斩 梯 度 法 中 ， 我 们 寻求 一 个 和 先前 线性 搜索 方向 EAE (conjugate) 的 搜索 
方向 ， 即 它 不 会 撤销 该 方向 上 的 进展 。 在 训练 欠 代 t 时 ， 下 一 步 的 搜索 方向 di 的 形 
式 如 下 : 





d, = VoJ (0) + B, d, 4, (8.29) 
其 中 ， 系 数 B, 的 大 小 控制 我 们 应 沿 方 向 di, 加 回 多 少 到 当前 搜索 方向 上 。 
WR di Hdi = 0， 其 中 及 是 Hessian 和 矩阵 ， 则 两 个 方向 d, 和 dii 被 称 为 共 
AUR o 
ik Hum FETT IRAE APE ATT REFER 9, 。 这 将 无 法 满足 我 们 
的 开发 目标 : 寻找 在 大 问题 比 牛 顿 法 计算 更 加 可 行 的 方法 。 我 们 能 否 不 进行 这 些 计 
算 而 得 到 共 斩 方 向 ? 幸运 的 是 这 个 问题 的 答案 是 肯定 的 。 


两 种 用 于 计算 B, 的 流行 方法 是 : 








1. Fletcher-Reeves: 


VeJ(0:)' VeJ(8:) 
VeJ(0, 1) VeJ(0,.1) 





Bi (8.30) 
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2. Polak-Ribiére: 
(VgJ(0,) 一 VeJ(0, 1))' V9J(0,) 


Be = VeJ(0, 1) VoJ(8. 1) 





(8.31) 





MF UH iir zi. 369877 I8 6 De Ee RETE RU — 24 I6] AD ANE, Db, def HE RBU— 
方向 上 仍然 是 极 小 值 。 其 结果 是 ， 在 kS, SCUBA A ERA k KR 
性 搜索 就 能 达到 极 小 值 。 共 斩 梯 度 算法 如 算法 8.9 所 示 。 


算法 8.9 HERREN IE 
Require: 初始 参数 0o 
Require: 包含 m 个 样本 的 训练 集 
初始 化 po =0 
初始 化 go = 0 
初始 化 t= 1 
while 没有 达到 停止 准则 do 
初始 化 梯度 g, = 0 
计算 梯度 : g, — mv 9 3, LG (2; 0), y) 
计算 Bi = 99-9 © (Polak-Ribidre) 


gi 19t— 


(GER PEJEBUER HE : WETER BNE, 例如 t 是 常数 大 的 倍数 时 , A k = 5) 














计算 搜索 方向 : Pi = —g + Bipia 

执行 线 搜索 寻找 : e = argmin, E77 , L( f(x; 0, + epi), y?) 

( 对 于 真正 二 次 的 代价 函数 ， 存 在 e 的 解析 解 ， 而 无 需 显 式 地 搜索 ) 
应 用 更 新 : Oi = 0 +p; 

tt+l 


end while 








非 线 性 共 斩 梯度 : 目前， 我们 已 经 讨论 了 用 于 二 次 目标 函数 的 共 斩 梯度 法 。 当 然 ， 
本 章 我 们 主要 关注 于 探索 训练 神经 网 络 和 其 他 相关 深度 学 习 模 型 的 优化 方法 ， 其 对 
应 的 目标 函数 比 二 次 函数 复杂 得 多 。 或 许 令 人 惊讶 ， 共 f 梯 度 法 在 这 种 情况 下 仍然 
是 适用 的 ， 尽 管 需 要 作 一 些 修改 。 没 有 目标 是 二 次 的 保证 ， 共 思 方 向 也 不 再 保证 在 
以 前 方向 上 的 目标 仍 是 极 小 值 。 其 结果 是 ， 非 线性 共 斩 梯 度 算法 会 包括 一 些 偶 尔 的 
重 设 ， 共 斩 梯 度 法 沿 未 修改 的 梯度 重启 线性 搜索 。 
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KRA dC ert Scb rp fr HAE E VECES EAI TRES PO 28 ee BY), SEE 
FY MAE TEE qu PS RE WU E HH BG BUE HE P BE ee T ZPO WI ESCRIBE RE. ER, US 
管 〈 非 线性 ) FEMUR ERATE PESE EERTE, MERE CAMO PAH 
网 络 (Le Roux et aL, 2011). FATER PE ERE po HE FI Coi n, Pn p A c 
WILE RARER YE (Moller, 1993). 





8.6.5 BFGS 


Broyden-Fletcher-Goldfarb-Shanno (BFGS ) 算法 具有 牛顿 法 的 一 些 优 
点 , 但 没有 牛顿 法 的 计算 负担 。 在 这 方面 ， BFGS 和 CG 很 像 。 然 而 ，BFGS 使 用 了 
一 个 更 直接 的 方法 近似 牛顿 更 新 。 回 顾 牛 顿 更 新 由 下 式 给 出 





0* = 0) — H ! VgJ(0;), (8.32) 





其 中 , Hw J 相对 于 9 FW Hessian ERETTE 09 处 的 估计 。 运 用 牛顿 法 的 主要 计算 难 
点 在 于 计算 Hessian 道 五 1。 拟 牛 顿 法 所 采用 的 方法 (BFGS 是 其 中 最 突出 的 ) 是 使 
用 和 矩阵 M, 近似 逆 ， 和 迭代 地 低 秩 更 新 精度 以 更 好 地 近似 五 s 

BFGS 近似 的 说 明和 推导 出 现在 很 多 关于 优化 的 教科 书 中 ， 包 括 Luenberger 
(1984). 

“4 Hessian 道 近 似 M, 更 新 时 ， 下 降 方向 pi 为 pi = Migo BF EWR 
索 用 于 决定 该 方向 上 的 步 长 ee 。 参 数 的 最 后 更 新 为 : 








0,4 一 0, 十 €' p. (8.33) 





MISE RIAA, BFGS 算法 迭代 一 系列 线性 搜索 ， 其 方向 含 二 阶 信息 。 然 而 
和 共 斩 梯 度 不 同 的 是 ， 该 方法 的 成 功 并 不 严重 依赖 于 线性 搜索 寻找 该 方向 上 和 真正 
极 小 值 很 近 的 一 点 。 因 此 ， 相 比 于 共 箔 梯度，BFGS 的 优点 是 其 花费 较 少 的 时 间 改 
进 每 个 线性 搜索 。 在 另 一 方面 ，BFGS 算法 必须 存储 Hessian wish M， 需 要 O(n?) 
的 存储 空间 ， 使 BFGS 不 适用 于 大 多 数 具 有 百 万 级 参数 的 现代 深度 学 习 模 型 。 


存储 受 限 的 BFGS (或 L-BFGS ) 通过 避免 存储 完整 的 Hessian 逆 近似 M 
BFGS 算 法 的 存储 代价 可 以 显著 降低 。L-BFGS 算 法 使 用 和 BFGS 算 法 相同 的 方法 计 
^r M 的 近似 ， 但 起 始 假设 是 MEO 是 单位 矩阵 ， 而 不 是 一 步 一 步 都 要 存储 近似 。 
如 果 使 用 精确 的 线性 搜索 ，L-BFGS EXAT HAETI Rm, WEF 
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梯度 法 ， 即 使 只 是 近似 线性 搜索 的 极 小 值 ， 该 过 程 的 效果 仍然 不 错 。 这 里 描述 的 无 
存储 的 L-BFGS 方 法 可 以 拓展 为 包含 Hessian 和 矩阵 更 多 的 信息 ， 每 步 存储 一 些 用 于 更 
新 M 的 向 量 ， 且 每 步 的 存储 代价 是 O(n). 


8.7 ”优化 策略 和 元 算法 


许多 优化 技术 并 非 真正 的 算法 ， 而 是 一 般 化 的 模板 ， 可 以 特定 地 产生 算法 ,或 
是 并 入 到 很 多 不 同 的 算法 中 。 


8.7.1 ” 批 标准 化 


批 标准 化 (Ioffe and Szegedy, 2015) 是 优化 深度 神经 网 络 中 最 激动 人 心 的 最 新 创 
新 之 一 。 实 际 上 它 并 不 是 一 个 优化 算法 ， 而 是 一 个 自 适应 的 重 参数 化 的 方法 ， 试 图 
解决 训练 非常 深 的 模型 的 困难 。 

非常 次 的 模型 会 涉及 多 个 函数 或 层 组 合 。 在 其 他 层 不 改变 的 假设 下 ， 梯 度 用 于 
如 何 更 新 每 一 个 参数 。 在 实践 中 , 我 们 同时 更 新 所 有 层 。 当 我 们 进行 更 新 时 ， 可 能 会 
发 生 一 些 意 想不到 的 结果 ,这 是 因为 许多 组 合 在 一 起 的 函数 同时 改变 时 ， 计 算 更 新 
的 假设 是 其 他 函数 保持 不 变 。 举 一 个 简单 的 例子 ,假设 我 们 有 一 个 深度 神经 网 络 ， 
一 层 只 有 一 个 单元 ， 并 且 在 每 个 隐藏 层 不 使 用 激活 函数 : — mwiwaws...wis HOA, 
Wi 表示 用 于 层 i 的 权重 。 层 i 的 输出 是 hi = hi;_1Wio 输出 Ü 是 输入 x 的 线性 函数 ， 
但 是 权重 wi 的 非 线性 函数 。 假 设 我 们 的 代价 函数 上 的 梯度 为 1， 所 以 我 们 希望 稍 
稍 降低 $$。 然 后 反问 传播 算法 可 以 计算 梯度 g = Vwj。 想 想 我 们 在 更 新 w w- eg 
时 会 发 生 什 么 。 近 似 乡 的 一 阶 泰勒 级 数 会 预测 9 的 值 下 降 eg' g。 如 果 我 们 希望 下 
降 0.1， 那 么 梯度 中 的 一 阶 信息 表明 我 们 应 设置 学 习 率 e 为 站。 然而 ， 实 际 的 更 新 
将 包括 二 阶 ， 三 阶 ， 直 到 7 阶 的 影响 。 乡 的 更 新 值 为 




















z(wi — egi)(wa — €g2)... (wi — egi), (8.34) 


这 个 更 新 中 所 产生 的 一 个 二 阶 项 示例 是 qi go TTL wi 。 如 果 TTL sw; 很 小 , 那么 该 
项 可 以 忽略 不 计 。 而 如 果 层 3 到 层 D 的 权重 都 比 1 大 时 ， 该 项 可 能 会 指数 级 大 。 这 
使 得 我 们 很 难 选择 一 个 合适 的 学 习 率 ， 因 为 某 一 层 中 参数 更 新 的 效果 很 大 程度 上 取 
决 于 其 他 所 有 层 。 二 阶 优化 算法 通过 考虑 二 阶 相互 影响 来 解决 这 个 问题 ， 但 我 们 可 
以 看 到 , 在 非常 深 的 网 络 中 ,更 高 阶 的 相互 影响 会 很 显著 。 即 使 是 二 阶 优化 算法 , W 
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算 代 价 也 很 高 ,并 且 通 常 需要 大 量 近似 , 以免 真正 计算 所 有 的 重要 二 阶 相互 作用 。 
此 对 于 n > 2 的 情况 ， 建立 n 阶 优化 算法 似乎 是 无 户 的 。 那么 我 们 可 以 做 些 什 么 呢 ? 

批 标准 化 提出 了 一 种 几乎 可 以 重 参 数 化 所 有 深度 网 络 的 优雅 方法 。 重 参数 化 显 
著 减 少 了 多 层 之 间 协 调 更 新 的 问题 。 批 标准 化 可 应 用 于 网 络 的 任何 输入 层 或 隐藏 层 。 
设 互 是 需要 标准 化 的 某 层 的 小 批量 激活 函数 ， 排 布 为 设计 矩阵， 每 个 样本 的 激活 出 
现在 矩阵 的 每 一 行 中 。 为 了 标准 化 互 ， 我 们 将 其 蔡 换 为 
H-pu 

o Fi 

其 中 p 是 包含 每 个 单元 均值 的 向 量 ，o 是 包含 每 个 单元 标准 差 的 向 量 。 此 处 的 算术 
是 基于 广播 向 量 jw 和 向 量 o 应 用 于 和 矩阵 H 的 每 一 行 。 在 每 一 行内 ， 运 算是 逐 元 素 
的 ， 因 此 五 ;; 标准 化 为 减 去 u ERA cj。 网 络 的 其 余部 分 操作 H 的 方式 和 原 网 
络 操 作 互 的 方式 一 样 。 

在 训练 阶段 ， 








H = (8.35) 


1 
= 一 H,. : 
u me T (8.36) 


和 





o — 4 Sya- ufi, (8.37) 





其 中 6 是 个 很 小 的 正 值 ， 比 如 10 飞 ， 以 强制 避免 遇 到 Vz 的 梯度 在 z = 0 处 未 定义 
的 问题 。 至 关 重 要 的 是 , 我 们 反 向 传播 这 些 操作 , 来 计算 均值 和 标准 差 ,， 并 应 用 它们 
于 标准 化 五 。 这 意味 着 ， 梯 度 不 会 再 简单 地 增加 h; 的 标准 差 或 均值 ; 标准 化 操作 会 
除 掉 这 一 操作 的 影响 ， 归 零 其 在 梯度 中 的 元 素 。 这 是 批 标准 化 方法 的 一 个 重大 创新 。 
以 前 的 方法 添加 代价 函数 的 惩罚 ， 以 喜 励 单元 标准 化 激活 统计 量 ， 或 是 在 每 个 梯度 
下 降 步骤 之 后 重新 标准 化 单元 统计 量 。 前 者 通常 会 导致 不 完全 的 标准 化 ， 而 后 者 通 
常会 显著 地 消耗 时 间 ， 因 为 学 习 算法 会 反复 改变 均值 和 方差 而 标准 化 步 又 会 反复 抵 
消 这 种 变化 。 批 标准 化 重 参 数 化 模型 ， 以 使 一 些 单元 总 是 被 定义 标准 化 ， 巧 妙 地 回 
避 了 这 两 个 问题 。 

在 测试 阶段 ，j 和 o 可 以 被 蔡 换 为 训练 阶段 收集 的 运行 均值 。 这 使 得 模型 可 以 
对 单一 样本 评估 ， 而 无 需 使 用 定义 于 整个 小 批量 的 p fl o. 

回顾 例子 = rww... w, RIAR, RITE BEREM hi1 很 大 程度 地 
解决 了 学 习 这 个 模型 的 问题 。 假 设 x 采样 自 一 个 单位 高 斯 。 那 么 no, 也 是 来 自 高 
斯 ， 因为 从 x 到 的 变换 是 线性 的 。 然 而 ,hi_1i 不 再 有 和 零 均值 和 单位 方差 。 使 用 批 
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标准 化 后 ， 我 们 得 到 的 归 一 化 hi 恢复 了 零 均 值 和 单位 方差 的 特性 。 对 于 底层 的 几 
平 任意 更 新 而 言 ，h1_1 仍然 保持 着 单位 高 斯 。 然 后 输出 g 可 以 学 习 为 一 个 简单 的 线 
性 函数 站 = wih_1。 现 在 学 习 这 个 模型 非常 简单 ， 因 为 低层 的 参数 在 大 多 数 情况 下 
没有 什么 影响 ; 它们 的 输出 总 是 重新 标准 化 为 单位 高 斯 。 只 在 少数 个 例 中 ， 低 层 会 
影响 。 改 变 某 个 低层 权重 为 0， 可 能 使 输出 退化 ; 改变 低层 权重 的 符号 可 能 反 转 
hi 和 Y 之 间 的 关系 。 这 些 情 况 都 是 非常 罕见 的 。 没 有 标准 化 ,几乎 每 一 个 更 新 都 
会 对 hi 的 统计 量 有 着 极端 的 影响 。 因 此 ， 批 标准 化 显著 地 使 得 模型 更 易学 习 。 在 
这 个 示例 中 ， 容 易学 习 的 代价 是 使 得 底层 网 络 没有 用 。 在 我 们 的 线性 示例 中 ， 较 低 
层 不 再 有 任何 有 害 的 影响 ， 但 它们 也 不 再 有 任何 有 益 的 影响 。 这 是 因为 我 们 已 经 标 
准 化 了 一 阶 和 二 阶 统计 量 ， 这 是 线性 网 络 可 以 影响 的 所 有 因素 。 在 具有 非 线性 激活 
函数 的 深度 神经 网 络 中 ， 较 低层 可 以 进行 数据 的 非 线性 变换 ， 所 以 它们 仍然 是 有 用 
的 。 批 标准 化 仅 标准 化 每 个 单元 的 均值 和 方差 ， 以 稳定 化 学 习 ， 但 允许 单元 和 单个 
单元 的 非 线性 统计 量 之 间 的 关系 发 生变 化 。 

由 于 网 络 的 最 后 一 层 能 够 学 习 线 性 变换 ， 实 际 上 我 们 可 能 希望 移 除 一 层 内 单元 
之 间 的 所 有 线性 关系 。 事实 上 ， 这 是 Guillaume Desjardins (2015) 中 采用 的 方法 ， 
为 批 标准 化 提供 了 灵感 。 令 人 遗憾 的 是 ， 消 除 所 有 的 线性 关联 比 标准 化 各 个 独立 单 
元 的 均值 和 标准 差 代 价 更 高 ， 因 此 批 标准 化 仍 是 迄今 最 实用 的 方法 。 

标准 化 一 个 单元 的 均值 和 标准 差 会 降低 包含 该 单元 的 神经 网 络 的 表达 能 力 。 为 
了 保持 网 络 的 表现 力 ， 通 常会 将 批量 隐藏 单元 激活 五 将 换 为 YH + B， 而 不 是 简单 
地 使 用 标准 化 的 如。 变量 y 和 B 是 允许 新 变量 有 任意 均值 和 标准 差 的 学 习 参 数 。 
乍 一 看 ,这 似乎 是 无 用 的 一 一 为 什么 我 们 将 均值 设 为 0, 然后 又 引入 参数 允许 它 被 重 
设 为 任意 值 6? 答案 是 新 的 参数 可 以 表示 旧 参 数 作为 输入 的 同一 族 函 数 ， 但 是 新 参 
数 有 不 同 的 学 习 动 态 。 在 旧 参 数 中 , H 的 均值 取决 于 五 下 层 中 参数 的 复杂 关联 。 在 
PER, yH 3-8 的 均值 仅 由 6 确定 。 新 参数 很 容易 通过 梯度 下 降 来 学 习 。 

大 多 数 神经 网 络 层 会 采取 AXW + b) 的 形式 ， 其 中 o 是 某 个 固定 的 非 线性 激 
活 函数 ， 如 整流 线性 变换 。 自 然 想到 我 们 应 该 将 批 标 准 化 应 用 于 输入 X 还 是 变换 后 
的 值 XW + b. Ioffe and Szegedy (2015) 推荐 后 者 。 更 具体 地 ， 玉 人 三 二 D 应 替换 为 
XW 的 标准 化 形式 。 偏 置 项 应 被 忽略 ， 因 为 参数 B 会 加 入 批 标准 化 重 参数 化 ， 它 是 
宛 余 的 。 一 层 的 输入 通常 是 前 一 层 的 非 线 性 激活 函数 ( 如 整流 线性 函数 ) 的 输出 。 因 
此 ， 输 入 的 统计 量 更 符合 非 高 斯 ， 而 更 不 服从 线性 操作 的 标准 化 。 

第 九 章 所 述 的 卷 积 网 络 ,在 特征 映射 中 每 个 空间 位 置 同 样 地 标准 化 u 和 or 是 很 
重要 的 ， 能 使 特征 映射 的 统计 量 不 因 空 间 位 置 而 保持 相同 。 
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8.7.2 ”坐标 下 降 


在 某 些 情况 下 ， 将 一 个 优化 问题 分 解 成 几 个 部 分 ， 可 以 更 快 地 解决 原 问题 。 如 
果 我 们 相对 于 某 个 单一 变量 xz; 最 小 化 f(x)， 然 后 相对 于 男 一 个 变量 v; 等 等 ， 反 
复 循 环 所 有 的 变量 ， 我 们 会 保证 到 达 (局 部 ) 极 小 值 。 这 种 做 法 被 称 为 坐标 下 降 
(coordinate descent )， 因 为 我 们 一 次 优化 一 个 坐标 。 更 一 般 地 ， 块 坐标 下 降 (block 
coordinate descent ) 是 指 对 于 某 个 子 集 的 变量 同时 最 小 化 。 术 语 “坐标 下 降 ” 通常 既 
旧 块 坐标 下 降 ， 也 指 严格 的 单个 坐标 下 降 。 

当 优 化 问题 中 的 不 同 变量 能 够 清楚 地 分 成 相对 独立 的 组 ， 或 是 当 优 化 一 组 变量 
明显 比 优化 所 有 变量 效率 更 高 时 ， 坐 标 下 降 最 有 意义 。 例 如 ， 考 虑 代价 函数 


J(H, W) = H+ 3 (X- WH)... (8.38) 
dj ij 











ARRE T PRPA i SA E, AARE AREE W, uf 
DAZ VERIS EIEE 五 LLEVE X. MAKEAA I Be BA 
减 或 W 列 范 数 的 约束 ， 以 避免 极 小 HRR W 的 病态 解 。 

函数 J 不 是 凸 的。 然而 ,我 们 可 以 将 训练 算法 的 输入 分 成 两 个 集合 : 字典 参数 
W 和 编码 表示 五 。 最 小 化 关于 这 两 者 之 一 的 任意 一 组 变量 的 目标 函数 都 是 凸 问题 。 
因此 ， 块 坐标 下 降 允 许 我 们 使 用 高 效 的 凸 优化 算法 ,交替 固定 五 优化 W 和 固定 WwW 
优化 H. 

当 一 个 变量 的 值 很 大 程度 地 影响 另 一 个 变量 的 最 优 值 时 ， 坐 标 下 降 不 是 一 个 很 
好 的 方法 ， 如 函数 f(x) = (£1 — x23)? o(z7-- 22), HP o SIE. FIM 
励 两 个 变量 具有 相似 的 值 ， 而 第 二 项 鼓励 它们 接近 零 。 解 是 两 者 都 为 零 。 牛 顿 法 可 
以 一 步 解 决 这 个 问题 ， 因 为 它 是 一 个 正定 二 次 问题 。 但是， 对 于 小 值 a 而 言 ， 坐 标 
下 降 会 使 进展 非常 缓慢 ， 因 为 第 一 项 不 允许 单个 变量 变 为 和 其 他 变量 当前 值 显 著 不 
同 的 值 。 











8.7.3 Polyak 平均 


Polyak 平均 (Polyak and Juditsky, 1992) 会 平均 优化 算法 在 参数 空间 访问 轨迹 
中 的 几 个 点 。 如 果 七 次 迭代 梯度 下 降 访 问 了 点 00,...,000, ABA Polyak 平均 算法 
的 输出 是 69 = 137, 60 在 某 些 问 题 中 ,如 梯度 下 降 应 用 于 凸 问题 时 , 这 种 方法 具 
有 较 强 的 收敛 保证 。 当 应 用 于 神经 网 络 时 ， 其 验证 更 多 是 启发 式 的 ， 但 在 实践 中 表 
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现 良 好 。 基 本 想法 是 ， 优 化 算法 可 能 会 来 回 穿 过 山谷 好 几 次 而 没 经 过 山谷 底部 附近 
的 点 。 尽 管 两 边 所 有 位 置 的 均值 应 比较 接近 谷底 。 

TARA, 优化 轨迹 的 路 径 可 以 非常 复杂 ,并 且 经 过 了 许多 不 同 的 区 域 。 包 
括 参 数 空间 中 遥远 过 去 的 点 ， 可 能 与 当前 点 在 代价 函数 上 相隔 很 大 的 障碍 ， 看 上 去 
不 像 一 个 有 用 的 行为 。 其 结果 是 ， 当 应 用 Polyak 平均 于 非 凸 问题 时 ， 通 常会 使 用 指 
数 衰减 计算 平均 值 : 








6 = 06 + (1 — a)0®. (8.39) 








这 个 计算 平均 值 的 方法 被 用 于 大 量 数值 应 用 中 。 最 近 的 例子 请 查看 Szegedy et al. 
(2015)。 


8.7.4 监督 预 训练 


有 时 ， 如 果 模 型 太 复杂 难以 优化 ， 或 是 如 果 任 务 非常 困难 ， 直 接 训练 模型 来 解 
决 特定 任务 的 挑战 可 能 太 大 。 有 时 训练 一 个 较 简单 的 模型 来 求解 问题 ， 然 后 使 模型 
更 复杂 会 更 有 效 。 训 练 模型 来 求解 一 个 简化 的 问题 ， 然 后 转移 到 最 后 的 问题 ， 有 时 
也 会 更 有 效 些 。 这 些 在 直接 训练 目标 模型 求解 目标 问题 之 前 ， 训 练 简单 模型 求解 简 
化 问题 的 方法 统称 为 预 训练 ( pretraining )。 

贪心 算法 (greedy algorithm ) 将 问题 分 解 成 许多 部 分 ， 然 后 独立 地 在 每 个 部 分 
求解 最 优 值 。 令 人 遗憾 的 是 ， 结 合 各 个 最 佳 的 部 分 不 能 保证 得 到 一 个 最 佳 的 完整 解 。 
然而 , 贪心 算法 计算 上 比 求解 最 优 联合 解 的 算法 高 效 得 多 , 并 且 贪 心算 法 的 解 在 不 是 
最 优 的 情况 下 ， 往 往 也 是 可 以 接受 的 。 贪 心算 法 也 可 以 紧 接 一 个 精 调 ( fine-tuning ) 
阶段 ， 联 合 优化 算法 搜索 全 问题 的 最 优 解 。 使 用 贪心 解 初始 化 联合 优化 算法 ， 可 以 
极 大 地 加 速算 法 ， 并 提高 寻找 到 的 解 的 质量 。 

预 训练 算法 ,特别 是 贪心 预 训 练 ， 在 深度 学 习 中 是 普遍 存在 的 。 在 本 节 中 , 我 们 
会 具体 描述 这 些 将 监督 学 习 问 题 分 解 成 其 他 简化 的 监督 学 习 问 题 的 预 训练 算法 。 这 
种 方法 被 称 为 贪心 监督 预 训练 ( greedy supervised pretraining )。 

在 贪心 监督 预 训练 的 原始 版 本 (Bengio et al., 2007c) 中 ， 每 个 阶段 包括 一 个 仅 
涉及 最 终 神经 网 络 的 子 集 层 的 监督 学 习 训 练 任务 。 贪 心 监督 预 训 练 的 一 个 例子 如 
图 8.7 所 示 ， 其 中 每 个 附加 的 隐藏 层 作为 浅 层 监督 多 层 感 知 机 的 一 部 分 预 训 练 ， 以 先 
前 训练 的 隐藏 层 输 出 作为 输入 。Simonyan and Zisserman (2015) 预 训练 深度 卷 积 网 
络 (11 层 权重 )， 然 后 使 用 该 网 络 前 四 层 和 最 后 三 层 初始 化 更 深 的 网 络 ( 多 达 19 层 
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权重 )， 并 非 一 次 预 训 练 一 层 。 非 常 深 的 新 网 络 的 中 间 层 是 随机 初始 化 的 。 然 后 联合 
训练 新 网 络 。 还 有 一 种 选择 ， 由 Yu et al. (2010) 提出 ， 将 先前 训练 多 层 感知 机 的 输 
出 ， 以 及 原始 输入 ， 作 为 每 个 附加 阶段 的 输入 。 








(c) (d) 











图 8.7: 一 种 形式 的 贪心 监督 预 训练 的 示意 图 (Bengio et al., 2007a). (a) 我 们 从 训练 一 个 足够 浅 
的 架构 开始 。(b) 同一 个 架构 的 另 一 描绘 。(c) 我 们 只 保留 原始 网 络 的 输入 到 隐藏 层 ， 并 丢弃 隐藏 
到 输出 层 。 我 们 将 第 一 层 隐 藏 层 的 输出 作为 输入 发 送 到 另 一 监督 单 隐 层 MLP ( 使 用 与 第 一 个 网 络 
相同 的 目标 训练 )， 从 而 可 以 添加 第 二 层 隐藏 层 。 这 可 以 根据 需要 重复 多 层 。(d) 所 得 架构 的 另 一 
种 描绘 ， 可 视 为 前 馈 网 络 。 为 了 进一步 改进 优化 , 我 们 可 以 联合 地 精 调 所 有 层 ( 仅 在 该 过 程 的 结束 
或 者 该 过 程 的 每 个 阶段 )。 









































为 什么 贪心 监督 预 训练 会 有 帮助 呢 ? 最 初 由 Bengio et al. (2007d) 提出 的 假说 
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是 ， 其 有 助 于 更 好 地 指导 深层 结构 的 中 间 层 的 学 习 。 一 般 情况 下 ， 预 训练 对 于 优化 
和 泛 化 都 是 有 帮助 的 。 

另 一 个 与 监督 预 训练 有 关 的 方法 扩展 了 迁移 学 习 的 想法 : Yosinski et al. (2014) 
在 一 组 任务 上 预 训练 了 8 层 权 重 的 深度 卷 积 网 络 (1000 个 ImageNet 对 象 类 的 子 
集 )， 然 而 用 该 网 络 的 前 A 层 初 始 化 同样 规模 的 网 络 。 然 后 第 二 个 网 络 的 所 有 层 ( 上 
层 随 机 初始 化 ) 联合 训练 以 执行 不 同 的 任务 (1000 个 ImageNet 对 象 类 的 另 一 个 子 
集 )， 但 训练 样本 少 于 第 一 个 任务 。 神 经 网 络 中 另 一 个 和 迁移 学 习 相 关 的 方法 将 在 
第 15.2 节 讨论 。 

另 一 条 相关 的 工作 线 是 FitNets (Romero et al, 2015) 方法 。 这 种 方法 始 于 训 
练 深度 足够 低 和 宽度 足够 大 ( 每 层 单元 数 )， 容 易 训 练 的 网 络 。 然 后 ， 这 个 网 络 成 为 
第 二 个 网 络 ( 被 指定 为 学 生 ) 的 老师 。 学 生 网 络 更 深 更 窗 (11 至 19 层 )， 且 在 正 
常情 况 下 很 难 用 SGD 训练 。 训 练 学 生 网 络 不 仅 需要 预测 原 任务 的 输出 ， 还 需要 预 
测 教师 网 络 中 间 层 的 值 ， 这 样 使 得 训练 学 生 网 络 变 得 更 容易 。 这 个 额外 的 任务 说 明 
了 隐藏 层 应 如 何 使 用 ， 并 且 能 够 简化 优化 问题 。 附 加 参数 被 引信 来 从 更 深 的 学 生 网 
络 中 间 层 去 回归 5 层 教 师 网 络 的 中 间 层 。 然 而 ， 该 目标 是 预测 教师 网 络 的 中 间 隐 藏 
层 ， 并 非 预 测 最 终 分 类 目标 。 学 生 网 络 的 低层 因而 具有 两 个 目标 : 帮助 学 生 网 络 的 
输出 完成 其 目标 和 预测 教师 网 络 的 中 间 层 。 尽 管 一 个 罕 而 深 的 网 络 似乎 比 宽 而 浅 的 
网 络 更 难 训练 ， 但 罕 而 深 网 络 的 泛 化 能 力 可 能 更 好 ， 并 且 如 果 其 足够 窗 ， 人 参数 足够 
少 ， 那 么 其 计算 代价 更 小 。 没 有 隐藏 层 的 提示 ， 学 生 网 络 在 训练 集 和 测试 集 上 的 实 
验 表现 都 很 差 。 因 而 中 间 层 的 提示 是 有 助 于 训练 很 难 训练 的 网 络 的 方法 之 一 , 但 是 
其 他 优化 技术 或 是 架构 上 的 变化 也 可 能 解决 这 个 问题 。 
































8.7.5 ”设计 有 助 于 优化 的 模型 


改进 优化 的 最 好 方法 并 不 总 是 改进 优化 算法 。 相 反 ， 深 度 模型 中 优化 的 许多 改 
进来 自 于 设计 易于 优化 的 模型 。 

原则 上 ， 我 们 可 以 使 用 呈 锯 齿 非 单 调 模式 上 上 下 下 的 激活 函数 , 但 是 ， 这 将 使 
优化 极为 困难 。 在 实践 中 ， 选 择 一 族 容易 优化 的 模型 比 使 用 一 个 强大 的 优化 算法 更 
重要 。 神 经 网 络 学 习 在 过 去 30 年 的 大 多 数 进 步 主要 来 自 于 改变 模型 族 ， 而 非 改变 优 
化 过 程 。1980 年 代用 于 训练 神经 网 络 的 带动 量 的 随机 梯度 下 降 ， 仍 然 是 现代 神经 网 
络 应 用 中 的 前 沿 算法 。 

具体 来 说 ， 现 代 神 经 网 络 的 设计 选择 体现 在 层 之 间 的 线性 变换 ， 几 乎 处 处 可 导 
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的 激活 函数 ， 和 大 部 分 定义 域 都 有 明显 的 梯度 。 特 别 地 ， 创 新 的 模型 ， 如 LSTM， 整 
流 线 性 单元 和 maxout 单元 都 比 先 前 的 模型 ( 如 基于 sigmoid 单元 的 深度 网 络 ) 使 用 
更 多 的 线性 函数 。 这 些 模型 都 具有 简化 优化 的 性 质 。 如 果 线 性 变换 的 Jacobian 具有 
相对 合理 的 奇异 值 ， 那 么 梯度 能 够 流 经 很 多 层 。 此 外 ， 线 性 函数 在 一 个 方向 上 一 致 
增加 ， 所 以 即使 模型 的 输出 远离 正确 值 ， 也 可 以 简单 清晰 地 计算 梯度 ， 使 其 输出 方 
回 阴 降低 损失 函数 的 方向 移动 。 换 言 之 ， 现 代 神 经 网 络 的 设计 方案 旨 在 使 其 局 部 梯 
度 信息 合理 地 对 应 着 移 向 一 个 遥远 的 解 。 

其 他 的 模型 设计 策略 有 助 于 使 优化 更 简单 。 例 如 ， 层 之 间 的 线性 路 径 或 是 跳 
跃 连接 减少 了 从 较 低层 参数 到 输出 最 短路 径 的 长 度 ， 因 而 缓解 了 梯度 消失 的 问题 
(Srivastava et ul.，2015)。 一 个 和 跳跃 连接 相关 的 想法 是 添加 和 网 络 中 间 隐 藏 层 相 
连 的 输出 的 额外 副本 ， 如 GoogLeNet (Szegedy et al., 2014a) 和 深度 监督 网 络 (Lee 
et al., 2014)。 这 些 “ 辅 助 头 ”被 训练 来 执行 和 网 络 顶 层 主 要 输出 相同 的 任务 ， 以 确 
保底 层 网 络 能 够 接受 较 大 的 梯度 。 当 训练 完成 时 ， 辅 助 头 可 能 被 丢弃 。 这 是 之 前 小 
节 介 绍 到 的 预 训 练 策略 的 替代 方法 。 以 这 种 方式 ， 我 们 可 以 在 一 个 阶段 联合 训练 所 
有 层 ， 而 不 改变 架构 ， 使 得 中 间 层 ( 特别 是 低层 ) 能 够 通过 更 短 的 路 径 得 到 一 些 有 
些 如 何 更 新 的 有 用 信息 。 这 些 信息 为 底层 提供 了 误差 信和 号。 
































8.7.6 ” 延 拓 法 和 课程 学 习 


正如 第 8.2.7 节 探 讨 的 ， 许 多 优化 挑战 都 来 自 于 代价 函数 的 全 局 结构 ， 不 能 仅 通 
过 局 部 更 新 方向 上 更 好 的 估计 来 解决 。 解 决 这 个 问题 的 主要 方法 是 尝试 初始 化 参数 
到 某 种 区 域内 ， 该 区 域 可 以 通过 局 部 下 降 很 快 连接 到 参数 空间 中 的 解 。 

延 拓 法 (continuation method ) 是 一 族 通过 挑选 初始 点 使 优化 更 容易 的 方法 ， 
以 确保 局 部 优化 花费 大 部 分 时 间 在 表现 良好 的 空间 。 延 拓 法 的 背后 想法 是 构造 一 系 
列 具 有 相同 参数 的 目标 函数 。 为 了 最 小 化 代价 函数 J(0)， 我 们 构建 新 的 代价 函数 
{JO ,... ,J 中 }。 这 些 代 价 函 数 的 难度 逐步 提高 ， 其 中 JO 是 最 容易 最 小 化 的 ，J7("” 
是 最 难 的 ， 真正 的 代价 函数 驱动 整个 过 程 。 当 我 们 说 JO 比 JUD 更 容易 时 ， 是 指 
其 在 更 多 的 9 空间 上 表现 良好 。 随 机 初始 化 更 有 可 能 落 人 局 部 下 降 可 以 成 功 最 小 
化 代价 函数 的 区 域 ， 因 为 其 良好 区 域 更 大 。 这 系列 代价 函数 设计 为 前 一 个 解 是 下 一 
个 的 良好 初始 点 。 因 此 ， 我 们 首先 解决 一 个 简单 的 问题 ， 然 后 改进 解 以 解决 逐步 变 
难 的 问题 ， 直 到 我 们 求解 真正 问题 的 解 。 

传统 的 延 拓 法 ( 用 于 神经 网 络 训 练 之 前 的 延 拓 法 ) 通常 基于 平滑 目标 函数 。 读 
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者 可 以 查看 Wu (1997) 了 解 这 类 方法 的 示例 ， 以 及 一 些 相关 方法 的 综述 。 延 拓 法 也 
和 参数 中 加 入 噪声 的 模拟 退火 紧密 相关 (Kirkpatrick et aL, 1983)。 延 拓 法 在 最 近 几 
年 非常 成 功 。 参 考 Mobahi and Fisher (2015) 了 解 近 期 文献 的 概述 ， 特 别 是 在 AI 方 
面 的 应 用 。 

传统 上 ， 延 拓 法 主要 用 来 克服 局 部 极 小 值 的 问题 。 具 体 地 ， 它 被 设计 来 在 有 很 
多 局 部 极 小 值 的 情况 下 ， 求 解 一 个 全 局 最 小 点 。 这 些 连 续 方 法 会 通过 “模糊 ”原来 
的 代价 函数 来 构建 更 容易 的 代价 函数 。 这 些 模糊 操作 可 以 是 用 采样 来 近似 





J® (0) = Eg WN (0':0,0(02) (0") (8.40) 











这 个 方法 的 直觉 是 有 些 非 凸 函数 在 模糊 后 会 近似 凸 的 。 在 许多 情况 下 ， 这 种 模糊 保 
留 了 关于 全 局 极 小 值 的 足够 信息 ， 我 们 可 以 通过 逐步 求解 模糊 更 少 的 问题 来 求解 全 
局 极 小 值 。 这 种 方法 有 三 种 可 能 失败 的 方式 。 首 先 ， 它 可 能 成 功 地 定义 了 一 连 串 代 
价 函 数 ， 并 从 开始 的 一 个 凸 函 数 起 ( 逐一 地 ) 沿 着 困 数 链 最 佳 轨迹 逼近 全 局 最 小 值 ， 
但 可 能 需要 非常 多 的 逐步 代价 函数 ,整个 过 程 的 成 本 仍然 很 高 。 另 外 , 即使 延 拓 法 可 
以 适用 ，NP-hard 的 优化 问题 仍然 是 NP-hard。 其 他 两 种 延 拓 法 失败 的 原因 是 不 实 
用 。 其 一 , 不 管 如 何 模糊 ， 函 数 都 没 法 变 成 凸 的， 比如 函数 J(0) = -9 7 0。 其 二 ， 郴 
数 可 能 在 模糊 后 是 凸 的 ， 但 模糊 函数 的 最 小 值 可 能 会 追踪 到 一 个 局 部 最 小 值 ， 而 非 
原始 代价 函数 的 全 局 最 小 值 。 

尽管 延 拓 法 最 初 用 来 解决 局 部 最 小 值 的 问题 ， 而 局 部 最 小 值 已 不 再 认为 是 神经 
网 络 优化 中 的 主要 问题 了 。 笠 运 的 是 ， 延 拓 法 仍然 有 所 帮助 。 延 拓 法 引入 的 简化 目 
标 函 数 能 够 消除 平坦 区 域 ， 减 少 梯度 估计 的 方差 ， 提 高 Hessian 和 矩阵 的 条 件数 ,使 局 
部 更 新 更 容易 计算 ,或 是 改进 局 部 更 新 方向 与 朝 问 全 局 解 方向 之 间 的 对 应 关系 。 

Bengio et al. (2009) 指出 被 称 为 课程 学 习 (curriculum learning ) 或 者 塑造 
(shaping ) 的 方法 可 以 被 解释 为 延 拓 法 。 课 程 学 习 基 于 规划 学 习 过 程 的 想法 ， 首 先 
学 习 简 单 的 概念 ， 然 后 逐步 学 习 依 赖 于 这 些 简 化 概念 的 复杂 概念 。 之 前 这 一 基本 
策略 被 用 来 加 速 动物 训练 过 程 (Skinner, 1958; Peterson, 2004; Krueger and Dayan, 
2009) 和 机 顺 学 习 过 程 (Solomonoff, 1989; Elman, 1993; Sanger, 1994)。Bengio et al. 
(2009) 验证 这 一 策略 为 延 拓 法 ， 通 过 增加 简单 样本 的 影响 (通过 分 配 它们 较 大 的 系 
数 到 代价 函数 ,或 者 更 频繁 地 采样 )， 先 前 的 JO 会 变 得 更 容易 。 实 验证 明 ， 在 大 
规模 的 神经 语言 模型 任务 上 使 用 课程 学 习 ， 可 以 获得 更 好 的 结果 。 课 程 学 习 已 经 成 
功 应 用 于 大 量 的 自然 语言 (Spitkovsky et al., 2010; Collobert et al., 2011a; Mikolov 
et al., 2011b; Tu and Honavar, 2011) 和 计算 机 视觉 (Kumar et al., 2010; Lee and 
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Grauman, 2011; Supancic and Ramanan, 2013) 任务 上 。 课程 学 习 被 证 实 为 与 人 类 
教学 方式 一 致 (Khan et al., 2011): 教师 刚 开 始 会 展示 更 容易 、 更 典型 的 示例 ， 然 
后 帮助 学 习 者 在 不 太 显然 的 情况 下 提炼 决策 面 。 在 人 类 教学 上 ， 基 于 课程 学 习 的 
策略 比 基 于 样本 均匀 采样 的 策略 更 有 效 ， 也 能 提高 其 他 学 习 策 略 的 效率 (Basu and 
Christensen, 2013). 
课程 学 习 研 究 的 另 一 个 重要 贡献 体现 在 训练 循环 神经 网 络 捕获 长 期 依赖 ; 
Zaremba and Sutskever (2014) 发 现 使 用 随机 课程 获得 了 更 好 的 结果 ， 其 中 容易 和 困 
难 的 示例 混合 在 一 起 ， 随 机 提供 给 学 习 者 ， 更 难 示 例 (这 些 具 有 长 期 依赖 ) 的 平均 
比例 在 逐渐 上 升 。 具 有 确定 性 课程 , 没有 发 现 超过 基线 ( 完整 训练 集 的 普通 训练 ) 的 
改进 。 

现在 我 们 已 经 介绍 了 一 些 基 本 的 神经 网 络 模型 ， 以 及 如 何 进 行 正则 化 和 优化 。 
在 接 下 来 的 章节 中 ， 我 们 转向 特 化 的 神经 网 络 家 族 ， 人 允许 其 扩展 到 能 够 处 理 很 大 规 
模 的 数据 和 具有 特殊 结构 的 数据 。 在 本 章 中 讨论 的 优化 算法 在 较 少 改动 后 或 者 无 需 
改动 ， 通 常 就 可 以 直接 用 于 这 些 特 化 的 架构 。 
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第 九 章 ” 卷 积 网 络 


卷 积 网 络 (convolutional network ) (LeCun, 1989), 也 叫做 卷 积 神经 网 络 ( con- 
volutional neural network, CNN )， 是 一 种 专门 用 来 处 理 具 有 类 似 网 格 结构 的 数据 的 
神经 网 络 。 例 如 时 间 序 列 数据 C 可 以 认为 是 在 时 间 轴 上 有 规律 地 采样 形成 的 一 维 网 
格 ) 和 图 像 数 据 ( 可 以 看 作 是 二 维 的 像素 网 格 )。 卷 积 网 络 在 诸多 应 用 领域 都 表现 优 
异 。“ 卷 积 神经 网 络 ” 一 词 表 明 该 网 络 使 用 了 卷 积 (convolution ) 这 种 数学 运算 。 卷 
积 是 一 种 特殊 的 线性 运算 。 卷 积 网 络 是 指 那些 至 少 在 网 络 的 一 层 中 使 用 卷 积 运算 来 
替代 一 般 的 矩阵 乘法 运算 的 神经 网 络 。 

本 章 ， 我 们 首先 说 明 什么 是 卷 积 运算 。 接 着 ， 我 们 会 解释 在 神经 网 络 中 使 用 卷 
职 运 算 的 动机 。 然 后 我 们 会 介绍 池 化 (pooling), 这 是 一 种 几乎 所 有 的 卷 积 网 络 都 会 
用 到 的 操作 。 通 常 来 说 ， 卷 积 神经 网 络 中 用 到 的 卷 积 运算 和 其 他 领域 ( 例如 工程 领 
域 以 及 纯 数 学 领域 ) 中 的 定义 并 不 完全 一 致 。 我 们 会 对 神经 网 络 实践 中 广泛 应 用 的 
几 种 卷 积 函数 的 变 体 进行 说 明 。 我 们 也 会 说 明 如 何在 多 种 不 同 维 数 的 数据 上 使 用 卷 
职 运算 。 之 后 我 们 讨论 使 得 卷 积 运算 更 加 高 效 的 一 些 方法 。 卷 积 网 络 是 神经 科学 原 
理 影响 深度 学 习 的 典型 代表 。 我 们 之 后 也 会 讨论 这 些 神经 科学 的 原理 ， 并 对 卷 积 网 
络 在 深度 学 习 发 展 史 中 的 作用 作出 评价 。 本 章 没有 涉及 如 何 为 你 的 卷 积 网 络 选择 合 
适 的 结构 ， 因 为 本 章 的 目标 是 说 明 卷 积 网 络 提供 的 各 种 工具 。 和 第 十 一 章 将 会 对 如 何 
在 具体 环境 中 选择 使 用 相应 的 工具 给 出 通用 的 准则 。 对 于 卷 积 网 络 结构 的 研究 进展 
得 如 此 迅速 ， 以 至 于 针对 特定 基准 (benchmark)， 数 月 甚至 几 周 就 会 公开 一 个 新 的 
最 优 的 网 络 结构 ， 甚 至 在 写 这 本 书 时 也 不 好 描述 究竟 哪 种 结构 是 最 好 的 。 然 而 ， 最 
好 的 结构 也 是 由 本 章 所 描述 的 基本 部 件 逐 步 搭建 起 来 的 。 
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9.1 RBR 


在 通常 形式 中 ， 卷 积 是 对 两 个 实 变 函数 的 一 种 数学 运算 1!。 为 了 给 出 卷 积 的 定义 ， 
我 们 从 两 个 可 能 会 用 到 的 函数 的 例子 出 发 。 

假设 我 们 正在 用 激光 传感器 追踪 一 艘 宇宙 飞船 的 位 置 。 我 们 的 激光 传 感 融 给 出 
一 个 单独 的 输出 e(t), KRFA KIERA t 的 位 置 。xz 和 t 都 是 实 值 的 ， 这 意味 
着 我 们 可 以 在 任意 时 刻 从 传感器 中 读 出 飞船 的 位 置 。 

现在 假设 我 们 的 传感器 受到 一 定 程度 的 噪声 干扰 。 为 了 得 到 飞船 位 置 的 低 噪声 
估计 ， 我 们 对 得 到 的 测量 结果 进行 平均 。 显 然 ， 时 间 上 越 近 的 测量 结果 越 相关 ， 所 
以 我 们 采用 一 种 加 权 平 均 的 方法 ， 对 于 最 近 的 测量 结果 赋予 更 高 的 权重 。 我 们 可 以 
采用 一 个 加 权 函 数 wa) RER, 其 中 a 表示 测量 结果 距 当 前 时 刻 的 时 间 间 隔 。 如 果 
我 们 对 任意 时 刻 都 采用 这 种 加 权 平 均 的 操作 ， 就 得 到 了 一 个 新 的 对 于 飞船 位 置 的 平 








滑 估计 函数 s: 
s(t) = [rout — a)da. (9.1) 
这 种 运算 就 叫做 AR (convolution )。 卷 积 运算 通常 用 星 号 表示 : 
s(t) = (xx w)(t). (9.2) 


在 我 们 的 例子 中 ，w 必须 是 一 个 有 效 的 概率 密度 函数 ， 否 则 输出 就 不 再 是 一 个 
加 权 平 均 。 另 外 ， 在 参数 为 负 值 时 ，vw 的 取 值 必须 为 0， 否 则 它 会 预测 到 未 来 ， 这 不 
是 我 们 能 够 推测 得 了 的 。 但 这 些 限 制 仅仅 是 对 我 们 这 个 例子 来 说 。 通 党 ， 卷 积 被 定 
义 在 满足 上 述 积分 式 的 任意 函数 上 ， 并 且 也 可 能 被 用 于 加 权 平 均 以 外 的 目的 。 

在 卷 积 网 络 的 术语 中 , 卷 积 的 第 一 个 参数 (在 这 个 例子 中 , 函数 x ) 通常 叫做 输 
入 (input )， 第 二 个 参数 (PAA w ) 叫做 核 函 数 (kernel function )。 输 出 有 时 被 称 
VE 特征 映射 (feature map )。 

在 本 例 中 ， 激 光 传 感 器 在 每 个 瞬间 反馈 测量 结果 的 想法 是 不 切实 际 的 。 一 般 地 ， 
当 我 们 用 计算 机 处 理 数 据 时 ， 时 间 会 被 离散 化 ,传感器 会 定期 地 反馈 数据 。 所 以 在 我 
们 的 例子 中 , 假设 传 感 需 每 秒 反馈 一 次 测量 结果 是 比较 现实 的 。 这 样 ， 时刻 t 只 能 取 
整数 值 。 如 果 我 们 假设 zx 和 w 都 定义 在 整数 时 刻 t 上 ,就 可 以 定义 离散 形式 的 卷 积 : 














oo 


s(t) = (x *w)(t) = y z(a)w(t — a). (9.3) 


a=—oo 





EAE: 本 书 中 operation 视 语 境 有 时 翻译 成 “运算 ”， 有 时 翻译 成 “操作 ”。 
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在 机 医学 习 的 应 用 中 ， 输 入 通常 是 多 维 数组 的 数据 ， 而 核 通常 是 由 学 习 算 法 优 
化 得 到 的 多 维 数 组 的 参数 。 我 们 把 这 些 多 维 数组 叫做 张 量 。 因 为 在 输入 与 核 中 的 每 
一 个 元 素 都 必须 明确 地 分 开 存 储 ， 我 们 通常 假设 在 存储 了 数值 的 有 限 点 集 以 外 ， 这 
些 函 数 的 值 都 为 零 。 这 意味 着 在 实际 操作 中 ， 我 们 可 以 通过 对 有 限 个 数组 元 素 的 求 
和 来 实现 无 限 求 和 。 

最 后 ， 我 们 经 常 一 次 在 多 个 维度 上 进行 卷 积 运算 。 例 如 ， 如 果 把 一 张 二 维 的 图 
像 I 作为 输入 ,我 们 也 许 也 想 要 使 用 一 个 二 维 的 核 K: 


S(i,j) = («KY cO P mm (i —'m,j — n). (9.4) 





卷 积 是 可 交换 的 (commutative)， 我 们 可 以 等 价 地 写作 : 
S(i,j) = (K « I( 72,2 I6 Na No, n). (9.5) 


通常 ， 下 面 的 公式 在 机 器 学 习 库 中 实现 更 为 简单 ， 因 为 m I n 的 有 效 取 值 范围 
相对 较 小 。 


卷 积 运算 可 交换 性 的 出 现 是 因为 我 们 将 核 相 对 输入 进行 了 翻转 (ip), M m 增 
大 的 角度 来 看 ， 输 入 的 索引 在 增 大 ， 但 是 核 的 索引 在 减 小 。 我 们 将 核 翻 转 的 唯一 目 
是 实现 可 交换 性 。 尽 管 可 交换 性 在 证 明 时 很 有 用 ， i m 
个 重要 的 性 质 ,与 之 不 同 的 是 ;许多 神经 网 络 库 会 实现 一 个 相关 的 函数 ， 称 为 互相 
HB ( cross-correlation )， 和 卷 积 运算 几乎 一 Ln. 


S(i,j) = (I * K)( SA CR n). (9.6) 





许多 机 器 学 习 的 库 实现 的 是 互相 关 函 数 但 是 称 之 为 卷 积 。 在 这 本 书 中 我 们 遵循 把 两 
种 运算 都 叫做 卷 积 的 这 个 传统 ， 在 与 核 翻 转 有 关 的 上 下 文中 ,我 们 会 特别 指明 是 否 
对 核 进行 了 翻转 。 在 机 带 学 习 中 , 学 习 算 法 会 在 核 合适 的 位 置 学 得 恰当 的 值 , 所 以 一 
个 基于 核 翻 转 的 卷 积 运算 的 学 习 算法 所 学 得 的 核 ， 是 对 未 进行 翻转 的 算法 学 得 的 核 
的 翻转 。 单 独 使 用 卷 积 运算 在 机 器 学 习 中 是 很 少见 的 ， 卷 积 经 常 与 其 他 的 函数 一 起 
使 用 ， 无 论 卷 积 运算 是 否 对 它 的 核 进行 了 翻转 ， 这 些 函 数 的 组 合 通常 是 不 可 交换 的 。 


图 9.1 演 示 了 一 个 在 2 维 张 量 上 的 卷 积 运算 〈 没 有 对 核 进行 翻转 ) 的 例子 。 


离散 卷 积 可 以 看 作 和 矩阵 的 乘法 , 然而 , 这 个 矩阵 的 一 些 元 素 被 限制 为 必须 和 另外 
一 些 元 素 相 等 。 例 如 对 于 单 变 量 的 离散 卷 积 ， 和 矩阵 每 一 行 中 的 元 素 都 与 上 一 行 对 应 
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Input 






Output 














图 9.1: 一 个 2 维 卷 积 的 例子 (没有 对 核 进 行 翻转 )。 
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我 们 限制 只 对 核 完全 处 在 图 像 中 的 位 置 进 行 





输出 ， 在 一 些 上 下 文中 称 为 “有 效 ” 卷 积 。 我 们 用 画 有 箭头 的 盒子 来 说 明 输 出 张 量 的 左上 角 元 素 是 
如 何 通 过 对 输入 张 量 相应 的 左上 角 区 域 应 用 核 进行 卷 积 得 到 的 。 























位 置 平 移 一 个 单位 的 元 素 相同 。 这 种 矩阵 叫做 
于 二 维 情况 ， 卷 积 对 应 着 一 个 双重 分 块 循环 


Toeplitz 和 矩阵 ( Toeplitz matrix )。 对 
BRE ( doubly block circulant matrix )。 


ER T CHET RSE AY BR Ab, SAG TE i EE (一 个 几乎 所 
有 元 素 都 为 零 的 矩阵 )。 这 是 因为 核 的 大 小 通常 要 远 小 于 输入 图 像 的 大 小 。 任 何 一 个 








使 用 矩阵 乘法 但 是 并 不 依赖 矩阵 结构 的 特殊 怕 


E 质 的 神经 网 络 算法 ， 都 适用 于 卷 积 运 


算 ， 并 且 不 需要 对 神经 网 络 做 出 大 的 修改 。 典 型 的 卷 积 神经 网 络 为 了 更 有 效 地 处 理 


大 规模 输入 ， 确 实 使 用 了 一 些 专门 化 的 技巧 ， 
要 的 。 


ww ai bbt. com [] [] 


但 这 些 在 理论 分 析 方面 并 不 是 严格 必 
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9.2 ”动机 


卷 积 运算 通过 三 个 重要 的 思想 来 帮助 改进 机 带 学 习 系 统 : Pet A (sparse 
interactions ), 参数 共享 ( parameter sharing )、 等 变 表示 (equivariant representa- 
tions )。 另 外 ， 卷 积 提 供 了 一 种 处 理 大 小 可 变 的 输入 的 方法 。 我 们 下 面 依次 介绍 这 些 


IH AH 


fe 3s B FH ZS od 2 S FABER DA OE vr A t fm ME AR. Hor. SAE 
阵 中 每 一 个 单独 的 参数 都 描述 了 一 个 输入 单元 与 一 个 输出 单元 间 的 交互 。 这 意 
味 着 每 一 个 输出 单元 与 每 一 个 输入 单元 都 产生 交互 。 然 而 ， 卷 积 网 络 具 有 Bear 
互 (sparse interactions ) (也 叫做 稀疏 连接 (sparse connectivity) 或 者 稀疏 权重 
(sparse weights )) 的 特征 。 这 是 使 核 的 大 小 远 小 于 输入 的 大 小 来 达到 的 。 举 个 例子 ， 
当 处 理 一 张 图 像 时 ， 输 入 的 图 像 可 能 包含 成 千 上 万 个 像素 点 , 但 是 我 们 可 以 通过 只 
占用 几 十 到 上 百 个 像素 点 的 核 来 检测 一 些小 的 有 意义 的 特征 ， 例 如 图 像 的 边缘 。 这 
意味 着 我 们 需要 存储 的 参数 更 少 ， 不 仅 减 少 了 模型 的 存储 需求 ， 而 且 提 高 了 它 的 统 
计 效 率 。 这 也 意味 着 为 了 得 到 输出 我 们 只 需要 更 少 的 计算 量 。 这 些 效 率 上 的 提高 往 
往 是 很 显著 的 。 如 果 有 m 个 输入 入 n 个 输出 ， 那 么 矩阵 乘法 需要 m x n 个 参数 并 
且 相 应 算法 的 时 间 复 杂 度 为 O(m x n) (对 于 每 一 个 例子 )。 如 果 我 们 限制 每 一 个 输 
出 拥有 的 连接 数 为 x， 那么 稀 玲 的 连接 方法 只 需要 kxn 个 参数 以 及 O(k x n) 的 运 
行 时 间 。 在 很 多 实际 应 用 中 ， 只 需 保持 k 比 mm 小 几 个 数量 级 ， 就 能 在 机 需 学 习 的 
任务 中 取得 好 的 表现 。 稀 玻 连 接 的 图 形 化 解释 如 图 9.2 和 图 9.3 所 示 。 在 深度 卷 积 隐 
络 中 ， 处 在 网 络 深 层 的 单元 可 能 与 绝 大 部 分 输入 是 间接 交互 的 ， 如 图 9.4 所 示 。 这 人 允 
许 网 络 可 以 通过 只 描述 稀 玖 交互 的 基石 来 高 效 地 描述 多 个 变量 的 复杂 交互 。 

参数 共享 ( parameter sharing ) 是 指 在 一 个 模型 的 多 个 函数 中 使 用 相同 的 参数 。 
在 传统 的 神经 网 络 中 ,， 当 计算 一 层 的 输出 时 ,权重 矩阵 的 每 一 个 元 素 只 使 用 一 次 , UH 
它 乘 以 输入 的 一 个 元 素 后 就 再 也 不 会 用 到 了 。 作 为 参数 共享 的 同义词 ， 我 们 可 以 说 
一 个 网 络 含 有 绑 定 的 权重 (tied weights )， 因 为 用 于 一 个 输入 的 权重 也 会 被 绑 定 在 
其 他 的 权重 上 。 在 卷 积 神经 网 络 中 , 核 的 每 一 个 元 素 都 作用 在 输入 的 每 一 位 置 上 (是 
否 考虑 边界 像素 取决 于 对 边界 决策 的 设计 )。 卷 积 运 算 中 的 参数 共享 保证 了 我 们 只 需 
要 学 习 一 个 参数 集合 ， 而 不 是 对 于 每 一 位 置 都 需要 学 习 一 个 单独 的 参数 集合 。 这 虽 
然 没 有 改变 前 向 传播 的 运行 时 间 (仍然 是 O(k x n) ), 但 它 显著 地 把 模型 的 存储 需求 
降低 至 k 个 参数 ,并 且 天 通常 要 比 mm 小 很 多 个 数量 级 。 因 为 m 和 nn 通常 有 着 大 致 
相同 的 大 小 ，% 在 实际 中 相对 于 m x n 是 很 小 的 。 因 此 ， 卷 积 在 存储 需求 和 统计 效 
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图 9.2: MEI, MAMA PE Ero RIRI Y — 48 AJRUU zs 以 及 在 s 中 受 该 单元 影响 
的 输出 单元 。( 上 ) s 是 由 核 宽 度 为 3 的 卷 积 产 生 时 ， 只 有 三 个 输出 受到 c 的 影响 ?>。( 下 ) 当 s 
是 由 矩阵 乘法 产生 时 ， 连 接 不 再 是 稀 芍 的 ， 所 以 所 有 的 输出 都 会 受到 zs 的 影响 。 























率 方面 极 大 地 优 于 稠密 矩阵 的 乘法 运算 。 图 9.5 演 示 了 参数 共享 是 如 何 实现 的 。 

作为 前 两 条 原则 的 一 个 实际 例子 ， 图 9.6 说 明了 稀 跑 连接 和 参数 共享 是 如 何 显 著 
提高 线性 函数 在 一 张 图 像 上 进行 边缘 检测 的 效率 的 。 

对 于 卷 积 ,参数 共享 的 特殊 形式 使 得 神经 网 络 层 具有 对 平移 等 变 ( equivariance ) 
的 性 质 。 如 果 一 个 函数 满足 输入 改变 , 输出 也 以 同样 的 方式 改变 这 一 性 质 , 我们 就 说 
它 是 等 变 (equivariant) 的 。 特 别 地 ， 如 果 函 数 f(x) 与 g(x) 满足 f(g(x)) = g(f(x)). 
我 们 就 说 f(z) 对 于 变换 g 具有 等 变性 。 对 于 卷 积 来 说 ， 如 果 令 9 是 输入 的 任意 平 
移 函 数 ， 那 么 卷 积 函 数 对 于 9 具有 等 变性 。 举 个 例子 ， 令 了 工 表示 图 像 在 整数 坐标 上 
的 亮度 函数 ，9 表示 图 像 函数 的 变换 函数 (把 一 个 图 像 函数 映 射 到 另 一 个 图 像 函 数 
的 函数 ) 使 得 I’ = 9g( 门 ， 其 中 图 像 函 数 也 满足 T(x,y) = T(z 一 1,y)。 这 个 函数 把 I 
中 的 每 个 像素 向 右 移动 一 个 单位 。 如 果 我 们 先 对 工 进 行 这 种 变换 然后 进行 卷 积 操作 
所 得 到 的 结果 ， 与 先 对 了 进行 郑 积 然后 再 对 输出 使 用 平移 函数 9 得 到 的 结果 是 一 样 
的 4 。 当 处 理 时 间 序 列 数据 时 ， 这 意味 着 通过 卷 积 可 以 得 到 一 个 由 输入 中 出 现 不 同 特 


“ 译 者 注 : 原文 将 此 处 误 写 成 了 I’. 
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图 9.3: 稀 琉 连接 ， 对 每 幅 图 从 上 往 下 看 。 我 们 强调 了 一 个 输出 单元 sa 以 及 z 中 影响 该 单元 的 输 
和 单元。 这 些 单元 被 称 为 ss 的 接受 域 ( receptive field) ?, (LE) 当 s 是 由 核 宽度 为 3 的 卷 积 产生 
时 ， 只 有 三 个 输入 影响 ss。( 下 ) 当 s 是 由 矩阵 乘法 产生 时 ， 连 接 不 再 是 稀疏 的 ， 所 以 所 有 的 输入 


都 会 影响 ss。 


ERE 


图 9.4: 处 于 卷 积 网 络 更 深 的 层 中 的 单元 ， 它 们 的 接受 域 要 比 处 在 浅 层 的 单元 的 接受 域 更 大 。 如 果 
网 络 还 包含 类 似 步 幅 卷 积 ( 图 9.12 ) 或 者 池 化 CHR 9.3 35 ) 之 类 的 结构 特征 ， 这 种 效应 会 加 强 。 这 
意味 着 在 卷 积 网 络 中 尽管 直接 连接 都 是 很 稀 朴 的 ， 但 处 在 更 深 的 层 中 的 单元 可 以 间接 地 连接 到 全 
部 或 者 大 部 分 输入 图 像 。 
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图 9.5: 参数 共享 。 黑 色 箭 头 表 示 在 两 个 不 同 的 模型 中 使 用 了 特殊 参数 的 连接 。( 上 ) 黑色 箭头 表示 
在 卷 积 模型 中 对 3 元 素 核 的 中 间 元 素 的 使 用 。 因 为 参数 共享 ， 这 个 单独 的 参数 被 用 于 所 有 的 输入 
位 置 。( 下 ) 这 个 单独 的 黑色 箭头 表示 在 全 连接 模型 中 对 权重 矩阵 的 中 间 元 素 的 使 用 。 这 个 模型 没 
有 使 用 参数 共享 ， 所 以 参数 只 使 用 了 一 次 。 









































征 的 时 刻 所 组 成 的 时 间 轴 。 如 果 我 们 把 输入 中 的 一 个 事件 向 后 延 时 ， 在 输出 中 仍然 
会 有 完全 相同 的 表示 ,只 是 时 间 延 后 了 。 图 像 与 之 类 似 ， 卷 积 产 生 了 一 个 2 维 映射 
来 表明 某 些 特征 在 输入 中 出 现 的 位 置 。 如 果 我 们 移动 输入 中 的 对 象 ， 它 的 表示 也 会 
在 输出 中 移动 同样 的 量 。 当 人 处 理 多 个 输入 位 置 时 ， 一 些 作用 在 邻居 像素 的 函数 是 很 
有 用 的 。 例 如 在 处 理 图像 时 ， 在 卷 积 网 络 的 第 一 层 进行 图 像 的 边缘 检测 是 很 有 用 的 。 
相同 的 边缘 或 多 或 少 地 散落 在 图 像 的 各 处 ， 所 以 应 当 对 整个 图 像 进行 参数 共享 。 但 
在 某 些 情况 下 ， 我 们 并 不 希望 对 整 幅 图 进行 参数 共享 。 例 如 ， 在 处 理 已 经 通过 剪裁 
而 使 其 居中 的 人 脸 图 像 时 ,我们 可 能 想 要 提取 不 同位 置 上 的 不 同 特征 (处理 人 脸 上 
部 的 部 分 网 络 需要 去 搜寻 眉毛 ， 处 理 人 脸 下 部 的 部 分 网 络 就 需要 去 搜寻 下 巴 了 )。 

卷 积 对 其 他 的 一 些 变换 并 不 是 天 然 等 变 的 ， 例 如 对 于 图 像 的 放 缩 或 者 旋转 变换 ， 
需要 其 他 的 一 些 机 制 来 处 理 这 些 变换 。 

最 后 ,一 些 不 能 被 传统 的 由 ( 固定 大 小 的 ) 矩阵 乘法 定义 的 神经 网 络 处 理 的 特 
殊 数 据 ， 可 能 通过 卷 积 神经 网 络 来 处 理 ， 我 们 将 在 第 9.7 节 中 进行 讨论 。 
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9.6: 边缘 检测 的 效率 。 右 边 的 图 像 是 通过 先 获得 原始 图 像 中 的 每 个 像素 ， 然 后 减 去 左边 相 邻 像 
素 的 值 而 形成 的 。 这 个 操作 给 出 了 输入 图 像 中 所 有 垂直 方向 上 的 边缘 的 强度 , 对 目标 检测 来 说 是 有 
用 的 。 两 个 图 像 的 高 度 均 为 280 个 像素 。 输入 图 像 的 宽度 为 320 个 像素 ， 而 输出 图 像 的 宽度 为 319 
个 像素 。 这 个 变换 可 以 通过 包含 两 个 元 素 的 卷 积 核 来 描述 , 使 用 卷 积 需要 319 x 280 x 3 = 267,960 
次 浮 点 运算 ( 每 个 输出 像素 需要 两 次 乘法 和 一 次 加 法 )。 为 了 用 符 阵 乘法 描述 相同 的 变换 ， 需 要 一 
个 包含 320 x 280 x 319 x 280 个 或 者 说 超过 80 亿 个 元 素 的 矩阵 ， 这 使 得 卷 积 对 于 表示 这 种 变换 
BAR 40 亿 倍 。 直接 运行 矩阵 乘法 的 算法 将 执行 超过 160 亿 次 浮 点 运算 ， 这 使 得 卷 积 在 计算 上 大 
约 有 60,000 倍 的 效率 。 当 然 ， 矩 阵 的 大 多 数 元 素 将 为 零 。 如 果 我 们 只 存储 矩阵 的 非 零 元 ， 则 和 矩阵 
乘法 和 卷 积 都 需要 相同 数量 的 浮 点 运算 来 计算 。 和 矩阵 仍然 需要 包含 2 x 319 x 280 = 178,640 个 元 
素 。 将 小 的 局 部 区 域 上 的 相同 线性 变换 应 用 到 整个 输入 上 ， 卷 积 是 描述 这 种 变换 的 极其 有 效 的 方 
法 。 照 片 来 源 : Paula Goodfellow. 
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卷 积 网 络 中 一 个 典型 层 包 含 三 级 ( 如 图 9.7 所 示 ) 在 第 一 级 中 , 这 一 层 并 行 地 计 
算 多 个 卷 积 产生 一 组 线性 激活 响应 。 在 第 二 级 中 , 每 一 个 线性 激活 响应 将 会 通过 一 个 
非 线 性 的 激活 函数 ， 例 如 整流 线性 激活 函数 。 这 一 级 有 时 也 被 称 为 探测 级 ( detector 
stage )。 在 第 三 级 中 ， 我 们 使 用 池 化 函数 (pooling function ) 来 进一步 调整 这 一 层 
的 输出 。 








Complex layer terminology Simple layer terminology 


Convolutional Layer 


Pooling stage Pooling layer 


Detector stage: 
. i 8 Detector layer: Nonlinearity 
Nonlinearity P . 
; e.g., rectified linear 
e.g., rectified linear 


Convolution stage: Convolution layer: 
Affine transform Affine transform 
Input to layer Input to layers 


图 9.7: 一 个 典型 卷 积 有 两 组 常用 的 术语 用 于 描述 这 些 层 。( 左 ) 在 这 组 术语 中 ， 
卷 积 网 络 被 视 为 少量 相对 复杂 的 层 ， 每 层 具有 许多 “级 ”。 在 这 组 术语 中 ， 核 张 量 与 网 络 层 之 间 存 
在 一 一 对 应 关系 。 在 本 书 中 ， 我 们 通常 使 用 这 组 术语 。 i 在 这 组 术语 中 ， 卷 积 网 络 被 视 为 更 多 
数量 的 简单 层 ; 每 一 个 处 理 步骤 都 被 认为 是 一 个 独立 的 层 。 这 意味 着 不 是 每 一 “ 层 ” 都 有 参数 。 



















































































池 化 函数 使 用 某 一 位 置 的 相 邻 输出 的 总 体 统计 特征 来 代替 网 络 在 该 位 置 的 输出 。 
例如 ， 最 大 池 化 (max pooling ) 函数 (Zhou and Chellappa, 1988) 给 出 相 邻 矩形 区 
域内 的 最 大 值 。 其 他 常用 的 池 化 函数 包括 相 邻 矩形 区 域内 的 平均 值 、Z2 范 数 以 及 基 
于 据 中 心 像素 距离 的 加 权 平 均 函 数 。 
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不 管 采用 什么 样 的 池 化 函数 ， 当 输入 作出 少量 平移 时 ， 池 化 能 够 帮助 输入 的 表 
示 近 似 不 变 (invariant )。 对 于 平移 的 不 变性 是 指 当 我 们 对 输入 进行 少量 平移 时 ， 经 
过 池 化 函数 后 的 大 多 数 输 出 并 不 会 发 生 改变 。 图 9.8 用 了 一 个 例子 来 说 明 这 是 如 何 实 
现 的 。 局 部 平移 不 变性 是 一 个 很 有 用 的 性 质 ， 尤 其 是 当 我 们 关心 某 个 特征 是 否 出 现 
而 不 关心 它 出 现 的 具体 位 置 时 。 例 如 ， 当 判定 一 张 图 像 中 是 否 包含 人 脸 时 ， 我 们 并 
不 需要 知道 眼睛 的 精确 像素 位 置 ， 我们 只 需要 知道 有 一 只 眼睛 在 脸 的 左边 ， 有 一 只 
在 右边 就 行 了 。 但 在 一 些 其 他 领域 ,保存 特征 的 具体 位 置 却 很 重要 。 例 如 当 我 们 想 
要 寻找 一 个 由 两 条 边 相 交 而 成 的 拐角 时 ， 我 们 就 需要 很 好 地 保存 边 的 位 置 来 判定 它 
们 是 否 相交 。 


POOLING STAGE 


v4 YY 


DETECTOR STAGE 


POOLING STAGE 


vf ve 


DETECTOR STAGE 











图 9.8: 最 大 池 化 引入 了 不 变性 。( 上 ) 卷 积 层 中 间 输 出 的 视图 。 下 面 一 行 显示 非 线 性 的 输出 。 上 面 
一 行 显示 最 大 池 化 的 输出 ， 每 个 池 的 宽度 为 三 个 像素 并 且 池 化 区 域 的 步 幅 为 一 个 像素 。( 下 ) 相同 
网 络 的 视图 ， 不 过 对 输入 右 移 了 一 个 像素 。 下 面 一 行 的 所 有 值 都 发 生 了 改变 , 但 上 面 一 行 上 只 有 一 
半 的 值 发 生 了 改变 ,这 是 因为 最 大 池 化 单元 只 对 周围 的 最 大 值 比较 敏感 ， 而 不 是 对 精确 的 位 置 。 
























































使 用 池 化 可 以 看 作 是 增加 了 一 个 无 限 强 的 先 验 : 这 一 层 学 得 的 函数 必须 具有 对 
少量 平移 的 不 变性 。 当 这 个 假设 成 立时 ， 池 化 可 以 极 大 地 提高 网 络 的 统计 效率 。 

对 空间 区 域 进 行 池 化 产生 了 平移 不 变性 ， 但 当 我 们 对 分 离 参数 的 卷 积 的 输出 进 
行 池 化 时 ， 特 征 能 够 学 得 应 该 对 于 哪 种 变换 具有 不 变性 ( 如 图 9.9 所 示 )。 
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图 9.9: 学 习 不 变性 的 示例 。 使 用 分 离 的 参数 学 得 多 个 特征 ， 再 使 用 池 化 单元 进行 池 化 ， 可 以 学 得 
对 输入 的 某 些 变换 的 不 变性 。 这 里 我 们 展示 了 用 三 个 学 得 的 过 滤器 和 一 个 最 大 池 化 单元 可 以 学 得 
对 旋转 变换 的 不 变性 。 这 三 个 过 滤器 都 旧 在 检测 手写 的 数字 5。 每 个 过 滤器 尝试 匹配 稍微 不 同方 向 
的 5。 当 输入 中 出 现 5 时 ， 相 应 的 过 滤 需 会 匹配 它 并 且 在 探测 单元 中 引起 大 的 激活 。 然 后 ， 无 论 哪 
个 探测 单元 被 激活 ， 最 大 池 化 单元 都 具有 大 的 激活 = 我 们 在 这 里 演示 了 网 络 如 何 处 理 两 个 不 同 的 输 
入 ， 这 导致 两 个 不 同 的 探测 单元 被 激活 ， 然 而 对 池 化 单元 的 影响 大 致 相同 。 这 个 原则 在 maxout 网 
络 (Goodfellow et aL, 2013b) 和 其 他 卷 积 网 络 中 更 有 影响 。 空 间 位 置 上 的 最 大 池 化 对 于 平移 是 天 
然 不 变 的 ; 这 种 多 通道 方法 只 在 学 习 其 他 变换 时 是 必要 的 。 
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因为 池 化 综合 了 全 部 邻居 的 反馈 ， 这 使 得 池 化 单元 少 于 探测 单元 成 为 可 能 ， 我 
们 可 以 通过 综合 池 化 区 域 的 个 像素 的 统计 特征 而 不 是 单个 像素 来 实现 。 图 9.10 给 
出 了 一 个 例子 。 这 种 方法 提高 了 网 络 的 计算 效率 ， 因 为 下 一 层 少 了 约 k 倍 的 输入 。 
当下 一 层 的 参数 数目 是 关于 那 一 层 输 入 大 小 的 函数 时 例如 当下 一 层 是 全 连接 的 基 
于 和 矩阵 乘法 的 网 络 层 时 )， 这 种 对 于 输入 规模 的 减 小 也 可 以 提高 统计 效率 并 且 减 少 对 
于 参数 的 存储 需求 。 

在 很 多 任务 中 ,， 池 化 对 于 处 理 不 同 大 小 的 输入 具有 重要 作用 。 例 如 我 们 想 对 不 
同 大 小 的 图 像 进行 分 类 时 ， 分 类 层 的 输入 必须 是 固定 的 大 小 ， 而 这 通 党 通过 调整 池 
化 区 域 的 偏 置 大 小 来 实现 ， 这 样 分 类 层 总 是 能 接收 到 相同 数量 的 统计 特征 而 不 管 最 
初 的 输入 大 小 了 。 例 如 ， 最 终 的 池 化 层 可 能 会 输出 四 组 综合 统计 特征 ， 每 组 对 应 着 
图 像 的 一 个 象限 ， 而 与 图 像 的 大 小 无 关 。 


一 些 理论 工作 对 于 在 不 同情 况 下 应 当 使 用 哪 种 池 化 函数 给 出 了 一 些 指导 
(Boureau et al., 2010)。 将 特征 一 起 动态 地 池 化 也 是 可 行 的 ， 例如， 对 于 感 兴 
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图 9.10: 带 有 降 采 样 的 池 化 。 这 里 我 们 使 用 最 大 池 化 ， 池 的 宽度 为 三 并 且 池 之 间 的 步 幅 为 二 。 这 使 
得 表示 的 大 小 减少 了 一 半 , 减轻 了 下 一 层 的 计算 和 统计 负担 。 注 意 到 最 右边 的 池 化 区 域 尺 寸 较 小 ， 
但 如 果 我 们 不 想 忽略 一 些 探测 单元 的 话 就 必须 包含 这 个 区 域 。 

















特征 的 位 置 运行 聚 类 算法 (Boureau et aL, 2011)。 这 种 方法 对 于 每 幅 图 像 产生 一 个 
不 同 的 池 化 区 域 集 合 。 另 一 种 方法 是 先 学 习 一 个 单独 的 池 化 结构 ， 再 应 用 到 全 部 的 
图 像 中 (Jia et aL, 2012). 

池 化 可 能 会 使 得 一 些 利用 自 顶 向 下 信息 的 神经 网 络 结构 变 得 复杂 ， 例 如 玻 尔 效 
曼 机 和 自 编码 器 。 这 些 问 题 将 在 第 三 章 中 当 我 们 遇 到 这 些 类 型 的 网 络 时 进一步 讨论 。 
卷 积 玻 尔 效 曼 机 中 的 池 化 出 现在 第 20.6 节 。 一 些 可 微 网 络 中 需要 的 在 池 化 单元 上 进 
行 的 类 道 运算 将 在 第 20.10.6 节 中 讨论 。 

图 9.11 给 出 了 一 些 使 用 卷 积 和 池 化 操作 的 用 于 分 类 的 完整 卷 积 网 络 结构 的 例子 。 
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Output of sottmax: Output of sottmax: Output of sottmax: 
1,000 class 1,000 class 1,000 class 
probabilities probabilities probabilities 


Output of matrix Output of matrix Output of average 
multiply: 1,000 units multiply: 1,000 units pooling: 1x1x1,000 


Output of reshape to Output of reshape to Output Oo 


vector: vector: convolution: 


16,384 units 576 units 16x16x1,000 


with str : n Lord duce ce with str : 
16x16x64 ide sie ia 16x16x64 


Output Oo Output o Output Oo 
convolution 十 convolution 十 convolution 十 
ReLU: 64x64x64 ReLU: 64x64x64 ReLU: 64x64x64 


Output of poohng Output of pooling Output of pooling 
with stride 4: with stride 4: with stride 4: 
64x64x64 64x64x64 64x64x64 


Output o Output Oo Output Oo 
convolution 十 convolution 十 convolution 十 
ReLU: 256x256x64 ReLU: 256x256x64 ReLU: 256x256x64 


256x256x3 256x256x3 256x256x3 
图 9.11: 卷 积 网 络 用 于 分 类 的 结构 示例 。 本 图 中 使 用 的 具体 步 幅 和 深度 并 不 建议 实际 使 用 ; 它们 
被 设计 得 非常 浅 以 适合 页 面 。 实 际 的 卷 积 网 络 还 常常 涉及 大 量 的 分 支 ， 不 同 于 这 里 为 简单 起 见 所 
使 用 的 链 式 结构 。( 左 ) 处 理 固 定 大 小 的 图 像 的 卷 积 网 络 。 在 卷 积 层 和 池 化 层 几 层 交 替 之 后 ， 卷 积 
特征 映射 的 张 量 被 重新 变形 以 展 平 空 间 维度 。 网 络 的 其 余部 分 是 一 个 普通 的 前 馈 网 络 分 类 器 ， 如 
ENEE., (中) 处 理 大 小 可 变 的 图 像 的 卷 积 网 络 ， 但 仍 保持 全 连接 的 部 分 。 该 网 络 使 用 具有 可 
变 大 小 但 是 数量 固定 的 池 的 池 化 操作 ， 以 便 向 网 络 的 全 连接 部 分 提供 固定 576 个 单位 大 小 的 向 量 。 
(E) 没有 任何 全 连接 权重 层 的 卷 积 网 络 。 相 对 的 ， 最 后 的 卷 积 层 为 每 个 类 输出 一 个 特征 映射 。 该 
模型 可 能 会 用 来 学 习 每 个 类 出 现在 每 个 空间 位 置 的 可 能 性 的 映射 。 将 特征 映射 进行 平均 得 到 的 单 
个 值 ， 提 供 了 顶部 softmax 分 类 器 的 变量 。 
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9.4 ” 卷 积 与 池 化 作为 一 种 无 限 强 的 先 验 


回忆 一 下 第 5.2 节 中 先 验 概率 分 布 (prior probability distribution ) 的 概念 。 这 
是 一 个 模型 参数 的 概率 分 布 ， 它 刻画 了 在 我 们 看 到 数据 之 前 我 们 认为 什么 样 的 模型 
是 合理 的 信念 。 

先 验 被 认为 是 强 或 者 弱 取决 于 先 验 中 概率 密度 的 集中 程度 。 弱 先 验 具 有 较 高 的 
炉 值 ， 例 如 方差 很 大 的 高 斯 分 布 。 这 样 的 先 验 允 许 数据 对 于 参数 的 改变 具有 或 多 或 
少 的 自由 性 。 强 先 验 具有 较 低 的 炉 值 ， 例 如 方差 很 小 的 高 斯 分 布 。 这 样 的 先 验 在 决 
定 参数 最 终 取 值 时 起 着 更 加 积极 的 作用 。 

一 个 无 限 强 的 先 验 需要 对 一 些 参数 的 概率 置 零 并 且 完 全 禁止 对 这 些 参 数 赋值 ， 
无 论 数据 对 于 这 些 参 数 的 值 给 出 了 多 大 的 支持 。 

我 们 可 以 把 卷 积 网 络 类 比 成 全 连接 网 络 ， 但 对 于 这 个 全 连接 网 络 的 权重 有 一 个 
无 限 强 的 先 验 。 这 个 无 限 强 的 先 验 是 说 一 个 隐藏 单元 的 权重 必须 和 它 邻 居 的 权重 相 
同 ， 但 可 以 在 空间 上 移动 。 这 个 先 验 也 要 求 除了 那些 处 在 隐藏 单元 的 小 的 空间 连续 
的 接受 域内 的 权重 以 外 ， 其 余 的 权重 都 为 零 。 总 之 ,我 们 可 以 把 卷 积 的 使 用 当 作 是 
对 网 络 中 一 层 的 参数 引入 了 一 个 无 限 强 的 先 验 概率 分 布 。 这 个 先 验 说 明了 该 层 应 该 
学 得 的 函数 只 包含 局 部 连接 关系 并 且 对 平移 具有 等 变性 。 类 似 的 ， 使 用 池 化 也 是 一 
个 无 限 强 的 先 验 : 每 一 个 单元 都 具有 对 少量 平移 的 不 变性 。 

当然 ， 把 卷 积 神经 网 络 当 作 一 个 具有 无 限 强 先 验 的 全 连接 网 络 来 实现 会 导致 极 
大 的 计算 浪费 。 但 把 卷 积 神经 网 络 想 成 具有 无 限 强 先 验 的 全 连接 网 络 可 以 帮助 我 们 
更 好 地 洞察 卷 积 神经 网 络 是 如 何 工 作 的 。 

其 中 一 个 关键 的 洞察 是 卷 积 和 池 化 可 能 导致 欠 拟 合 。 与 任何 其 他 先 验 类 似 ， 卷 
积 和 池 化 只 有 当先 验 的 假设 合理 且 正 确 时 才 有 用 。 如 果 一 项 任务 依赖 于 保存 精确 
的 空间 信息 ， 那 么 在 所 有 的 特征 上 使 用 池 化 将 会 增 大 训练 误差 。 一 些 卷 积 网 络 结 
构 (Szegedy et al., 2014a) 为 了 既 获 得 具有 较 高 不 变性 的 特征 又 获得 当 平 移 不 变性 不 
合理 时 不 会 导致 从 拟 合 的 特征 ， 被 设计 成 在 一 些 通 道上 使 用 池 化 而 在 另 一 些 通 道上 
不 使 用 。 当 一 项 任务 涉及 到 要 对 输入 中 相隔 较 远 的 信息 进行 合并 时 ， 那 么 卷 积 所 利 
用 的 先 验 可 能 就 不 正确 了 。 

另 一 个 关键 洞察 是 当 我 们 比较 卷 积 模型 的 统计 学 习 表 现时 ， 只 能 以 基准 中 的 其 
他 卷 积 模型 作为 比较 的 对 象 。 其 他 不 使 用 卷 积 的 模型 即使 我 们 把 图 像 中 的 所 有 像素 
点 都 置换 后 依然 有 可 能 进行 学 习 。 对 于 许多 图 像 数 据 集 ， 还 有 一 些 分 别 的 基准 ， 有 
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些 是 针对 那些 具有 置换 不 变性 (permutation invariant ) 并 且 必 须 通过 学 习 发 现 拓 
扑 结构 的 模型 ， 还 有 一 些 是 针对 模型 设计 者 将 空间 关系 的 知识 植 人 了 它们 的 模型 。 


95 “基本 卷 积 函数 的 变 体 


当 在 神经 网 络 的 上 下 文中 讨论 卷 积 时 ， 我 们 通常 不 是 特 指数 学 文献 中 使 用 的 那 
种 标准 的 离散 卷 积 运算 。 实 际 应 用 中 的 函数 略 有 不 同 。 这 里 我 们 详细 讨论 一 下 这 些 
差异 ， 并 且 对 神经 网 络 中 用 到 的 函数 的 一 些 重要 性 质 进行 重点 说 明 。 

首先 ， 当 我 们 提 到 神经 网 络 中 的 卷 积 时 ， 我 们 通常 是 指 由 多 个 并 行 卷 积 组 成 的 
运算 。 这 是 因为 具有 单个 核 的 卷 积 只 能 提取 一 种 类 型 的 特征 ， 尽 管 它 作用 在 多 个 空 
间 位 置 上 。 我 们 通常 希望 网 络 的 每 一 层 能 够 在 多 个 位 置 提取 多 种 类 型 的 特征 。 

另外 ， 输 入 通常 也 不 仅仅 是 实 值 的 网 格 ， 而 是 由 一 系列 观测 数据 的 向 量 构成 的 
网 格 。 例 如 ， 一 幅 彩色 图 像 在 每 一 个 像素 点 都 会 有 红 绿 蓝 三 种 颜色 的 亮度 。 在 多 层 
的 卷 积 网 络 中 ， 第 二 层 的 输入 是 第 一 层 的 输出 ， 通 常 在 每 个 位 置 包 含 多 个 不 同 卷 积 
的 输出 。 当 处理 图 像 时 ， 我 们 通常 把 卷 积 的 输入 输出 都 看 作 是 3 维 的 张 量 ， 其 中 一 
个 索引 用 于 标明 不 同 的 通道 ( 例如 红 绿 蓝 )， 另 外 两 个 索引 标明 在 每 个 通道 上 的 空间 
坐标 。 软 件 实现 通 稼 使 用 批 处 理 模式 ， 所 以 实际 上 会 使 用 A 维 的 张 量 ， 第 四 维 索 引 
用 于 标明 批 处 理 中 不 同 的 实例 ， 但 我 们 为 简明 起 见 这 里 忽略 批 处 理 索引 。 

因为 卷 积 网 络 通常 使 用 多 通道 的 卷 积 ， 所 以 即使 使 用 了 核 翻 转 ， 也 不 一 定 保 证 
网 络 的 线性 运算 是 可 交换 的 。 只 有 当 其 中 的 每 个 运算 的 输出 和 输入 具有 相同 的 通道 
数 时 ,这 些 多 通道 的 运算 才 是 可 交换 的 。。 

假定 我 们 有 一 个 4 维 的 核 张 量 K， 它 的 每 一 个 元 素 是 Kijo Karih PeF 
通道 i 的 一 个 单元 和 输入 中 处 于 通道 7 中 的 一 个 单元 的 连接 强度 ， 并 且 在 输出 单元 
和 输入 单元 之 间 有 天 行 ! 列 的 侦 置 。 假 定 我 们 的 输入 由 观测 数据 V 组 成 ， 它 的 每 一 
个 元 素 是 Vjx， 表 示人 处 在 通道 i 中 第 j 行 第 列 的 值 。 假 定 我 们 的 输出 Z 和 输入 
V 具有 相同 的 形式 。 如 果 输 出 Z 是 通过 对 K 和 V 进行 卷 积 而 不 涉及 翻转 K 得 到 
的 ， 那 么 


























Zi j,k = > Vij+m—1,k+n—1Ki,tm,ns (9.7) 


l,m,n 


这 里 对 所 有 的 !，m All n 进行 求 和 是 对 所 有 【在 求 和 式 中 ) 有 效 的 张 量 索引 的 值 进 
行 求 和 。 在 线性 代数 中 ， 向 量 的 索引 通常 从 1 开始 ， 这 就 是 上 述 公 式 中 一 1 的 由 来 。 
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但 是 像 C 或 Python 这 类 编程 语言 索引 通常 从 0 开始 ， 这 使 得 上 述 公 式 可 以 更 加 简 
滞 。 

我 们 有 时 会 希望 跳 过 核 中 的 一 些 位 置 来 降低 计算 的 开销 (相应 的 代价 是 提取 
特征 没有 先前 那么 好 了 )。 我 们 可 以 把 这 一 过 程 看 作 是 对 全 卷 积 函 数 输出 的 下 采样 
(downsampling)。 如 果 我 们 只 想 在 输出 的 每 个 方向 上 每 间隔 s 个 像素 进行 采样 ， 那 
么 我 们 可 以 定义 一 个 下 采样 卷 积 函数 c 使 得 

Zijk = c(K, V, 8), = p [Vi,G—1)x em, (k-n, GL ML (9.8) 
lm,n 
我 们 把 s 称 为 下 采样 卷 积 的 步 幅 (stride )。 当 然 也 可 以 对 每 个 移动 方向 定义 不 同 的 
步 幅 。 图 9.12 演示 了 一 个 实例 。 

在 任何 卷 积 网 络 的 实现 中 都 有 一 个 重要 性 质 ， 那 就 是 能 够 隐 含 地 对 输入 V 用 零 
进行 填充 (pad) 使 得 它 加 宽 。 如 果 没 有 这 个 性 质 , 表示 的 宽度 在 每 一 层 就 会 缩减 , 缩 
减 的 幅度 是 比 核 少 一 个 像素 这 么 多 。 对 输入 进行 零 填充 允许 我 们 对 核 的 宽度 和 输出 
的 大 小 进行 独立 的 控制 。 如 果 没 有 和 零 填 充 ， 我 们 就 被 迫 面临 三 选 一 的 局 面 ， 要么 选 
择 网 络 空间 宽度 的 快速 缩减 ， 要 么 选择 一 个 小 型 的 核 一 一 这 两 种 情境 都 会 极 大 得 限 
制 网 络 的 表示 能 力 。 图 9.13 给 出 了 一 个 例子 。 

有 三 种 零 填 充 设 定 的 情况 值得 注意 。 第 一 种 是 无 论 怎样 都 不 使 用 零 填 充 的 极端 
情况 ， 并 且 卷 积 核 具 允许 访问 那些 图 像 中 能 够 完全 包含 整个 核 的 位 置 。 在 MATLAB 
的 术语 中 ， 这 称 为 有 效 (valid) 卷 积 。 在 这 种 情况 下 ， 输 出 的 所 有 像素 都 是 输入 中 
相同 数量 像素 的 函数 ， 这 使 得 输出 像素 的 表示 更 加 规范 。 然 而 ， 输 出 的 大 小 在 每 一 
层 都 会 缩减 5 如 果 输 入 的 图 像 宽度 是 四， 核 的 宽度 是 大， 那么 输出 的 宽度 就 会 变 成 
m 一 大 十 1。 如 果 卷 积 核 非常 大 的 话 缩减 率 会 非常 显著 。 因 为 缩减 数 大 于 0， 这 限制 
了 网 络 中 能 够 包含 的 卷 积 层 的 层 数 。 当 层 数 增加 时 ， 网 络 的 空间 维度 最 终 会 缩减 到 
1 x 1， 这 种 情况 下 增加 的 层 就 不 可 能 进行 有 意义 的 卷 积 了 。 第 二 种 特殊 的 情况 是 只 
进行 足够 的 零 填 充 来 保持 输出 和 输入 具有 相同 的 大 小 。 在 MATLAB 的 术语 中 ， 这 
称 为 相同 (same) 卷 积 。 在 这 种 情况 下 ， 只 要 硬件 支持 ， 网 络 就 能 包含 任意 多 的 卷 
积 层 ， 这 是 因为 卷 积 运算 不 改变 下 一 层 的 结构 。。 然 而 ， 输 入 像素 中 靠近 边界 的 部 分 
相 比 于 中 间 部 分 对 于 输出 像素 的 影响 更 小 。 这 可 能 会 导致 边界 像素 存在 一 定 程度 的 
从 表示 。 这 使 得 第 三 种 极端 情况 产生 了 , 在 MATLAB 中 称 为 全 (full) 卷 积 。 它 进 
行 了 足够 多 的 零 填 充 使 得 每 个 像素 在 每 个 方向 上 恰好 被 访问 了 大 次， 最 终 输 出 图 像 
的 宽度 为 m 十 k 一 1。 在 这 种 情况 下 ， 输 出 像素 中 靠近 边界 的 部 分 相 比 于 中 间 部 分 是 
更 少 像素 的 函数 。 这 将 导致 学 得 一 个 在 卷 积 特征 映射 的 所 有 位 置 都 表现 不 错 的 单 核 
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图 9.12: 带 有 步 幅 的 卷 积 。 在 这 个 例子 中 ,我 们 的 步 幅 为 二 。( 上 ) 在 单个 操作 中 实现 的 步 幅 为 二 的 
卷 积 。( 下 /) 步 幅 大 于 一 个 像素 的 卷 积 在 数学 上 等 价 于 单位 步 幅 的 卷 积 随后 降 采 样 。 显 然 ， 涉及 降 采 
样 的 两 步 法 在 计算 上 是 浪费 的 ， 因 为 它 计算 了 许多 将 被 丢弃 的 值 。 

















更 为 困难 。 通 常 零 填 充 的 最 优 数量 ( 对 于 测试 集 的 分 类 正确 率 ) 处 于 “有 效 卷 积 ”和 
“相同 卷 积 ”之 间 的 某 个 位 置 。 

在 一 些 情况 下 ， 我 们 并 不 是 真 的 想 使 用 卷 积 ， 而 是 想 用 一 些 局 部 连接 的 网 络 层 
(LeCun, 1986, 1989)。 在 这 种 情况 下 ， 我 们 的 多 层 感知 机 对 应 的 邻接 矩阵 是 相同 的 ， 
但 每 一 个 连接 都 有 它 自己 的 权重 ， 用 一 个 6 维 的 张 量 Ww 来 表示 。W 的 索引 分 别 是 : 
输出 的 通道 i,， 输 出 的 行 j 和 列 k, 输入 的 通道 1， 输 入 的 行 偏 置 m 和 列 偏 置 n。 局 
部 连接 层 的 线性 部 分 可 以 表示 为 



































Zi j,k = > [Veg d don Tig Lond (9.9) 


l,m,n 


ww ai bbt. com [1 0 UO ELO. D 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github.com/exacity/deeplearningbook-chinese 
298 BILE BAR 


As 
EON. 


e00/»;»5o0o0o0o0o000Ooooooonee 


6aSSc000000008 we 
vbaeSScocccccccs we 
ed S Sooooocooost Be 


图 9.13: 零 填充 对 网 络 大 小 的 影响 。 考 虑 一 个 卷 积 网 络 ， 每 层 有 一 个 宽度 为 六 的 核 。 在 这 个 例子 
中 ,我 们 不 使 用 任何 池 化 ， 所 以 只 有 卷 积 操作 本 身 缩小 网 络 的 大 小 。( 上 ) 在 这 个 卷 积 网 络 中 ,我 
们 不 使 用 任何 隐 含 的 零 填 充 。 这 使 得 表示 在 每 层 缩小 五 个 像素 。 从 十 六 个 像素 的 输入 开始 ,我们 
只 能 有 三 个 卷 积 层 ， 并 且 最 后 一 层 不 能 移动 核 ， 所 以 可 以 说 只 有 两 层 是 真正 的 卷 积 层 。 可 以 通过 
使 用 较 小 的 核 来 减缓 收缩 速率 ， 但 是 较 小 的 核 表示 能 力 不 足 ， 并 且 在 这 种 结构 中 一 些 收缩 是 不 可 
避免 的 。( 下 ) 通过 向 每 层 添加 五 个 隐 含 的 零 ， 我 们 防止 了 表示 随 深 度 收缩 。 这 允许 我 们 设计 一 个 
任意 深 的 卷 积 网 络 。 














































































































这 有 时 也 被 称 为 非 共享 卷 积 ( unshared convolution )， 因 为 它 和 具有 一 个 小 核 的 离 
散 卷 积 运算 很 像 ， 但 并 不 横 跨 位 置 来 共享 参数 。 图 9.14 比 较 了 局 部 连接 、 卷 积 和 全 连 
接 的 区 别 。 

当 我 们 知道 每 一 个 特征 都 是 一 小 块 空间 的 函数 并 且 相 同 的 特征 不 会 出 现在 所 有 
的 空间 上 时 ， 局 部 连接 层 是 很 有 用 的 。 例 如 ， 如 果 我 们 想 要 辨别 一 张 图 片 是 否 是 人 
脸 图 像 时 ， 我 们 只 需要 去 寻找 嘴 是 否 在 图 像 下 半 部 分 即 可 。 

使 用 那些 连接 被 更 进一步 限制 的 卷 积 或 者 局 部 连接 层 也 是 有 用 的 ， 例 如 ， 限 秆 
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图 9.14: 局 部 连接 ， 卷 积 和 全 连接 的 比较 。( 上 ) 每 一 小 片 ( 接受 域 ) 有 两 个 像素 的 局 部 连接 层 。 
条 边 用 唯一 的 字母 标记 ， 来 显示 每 条 边 都 有 自身 的 权重 参数 。( 中 ) 核 宽度 为 两 个 像素 的 卷 积 层 。 
该 模型 与 局 部 连接 层 具 有 完全 相同 的 连接 。 区 别 不 在 于 哪些 单元 相互 交互 ， 而 在 于 如 何 共 享 参数 。 
局 部 连接 层 没 有 参数 共享 。 正 如 用 于 标记 每 条 边 的 字母 重复 出 现 所 指示 的 ， 卷 积 层 在 整个 输入 上 
重复 使 用 相同 的 两 个 权重 。( 下 ) 全 连接 层 类 似 于 局 部 连接 层 ， 它 的 每 条 边 都 有 其 自身 的 参数 (在 
该 图 中 用 字母 明确 标记 的 话 就 太 多 了 )。 然 而 ， 它 不 具有 局 部 连接 层 的 连接 受 限 的 特征 。 









































































































































每 一 个 输出 的 通道 i 仅仅 是 输入 通道 1 的 一 部 分 的 函数 时 。 实 现 这 种 情况 的 一 种 通 
用 方法 是 使 输出 的 前 m 个 通道 仅仅 连接 到 输入 的 前 ”个 通道 ， 输 出 的 接 下 来 的 m 
个 通道 仅仅 连接 到 输入 的 接 下 来 的 n 个 通道 ， 以 此 类 推 。 图 9.15 给 出 了 一 个 例子 。 
对 少量 通道 间 的 连接 进行 建 模 允 许 网 络 使 用 更 少 的 参数 ， 这 降低 了 存储 的 消耗 以 及 
提高 了 统计 效率 ， 并 且 减 少 了 前 向 和 反问 传播 所 需要 的 计算 量 。 这 些 目 标的 实现 并 
没有 减少 隐藏 单元 的 数目 。 

平 铺 卷 积 (tiled convolution ) (Gregor and LeCun, 2010a; Le et al., 2010) 对 卷 
积 层 和 局 部 连接 层 进 行 了 折衷 。 这 里 并 不 是 对 每 一 个 空间 位 置 的 权重 集合 进行 学 习 ， 
我 们 学 习 一 组 核 使 得 当 我 们 在 空间 移动 时 它们 可 以 循环 利用 。 这 意味 着 在 近邻 的 位 
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置 上 拥有 不 同 的 过 滤器 ， 就 像 局 部 连接 层 一 样 ， 但 是 对 于 这 些 参数 的 存储 需求 仅仅 
会 增长 常数 倍 ， 这 个 常数 就 是 核 的 集合 的 大 小 ， 而 不 是 整个 输出 的 特征 映射 的 大 小 。 
图 9.16 对 局 部 连接 层 、 平 铺 卷 积 和 标准 卷 积 进行 了 比较 。 

为 了 用 代数 的 方法 定义 平 铺 卷 积 , 令 K 是 一 个 6 维 的 张 量 5， 其 中 的 两 维 对 应 
着 输出 映射 中 的 不 同位 置 。K 在 这 里 并 没有 对 输出 映射 中 的 每 一 个 位 置 使 用 单独 的 
索引 ， 输 出 的 位 置 在 每 个 方向 上 在 t 个 不 同 的 核 组 成 的 集合 中 进行 循环 。 如 果 t 等 
于 输出 的 宽度 ， 这 就 是 局 部 连接 层 了 。 





Zik = > Vijém-ikien-AK mn tib; (9.10) 
lm,n 
这 里 百 分 号 是 取 模 运算 ， 它 的 性 质 包 括 t%t = 0, (t 十 1)96t = 1 等 等 。 在 每 一 维 上 使 
用 不 同 的 t 可 以 很 容易 对 这 个 方程 进行 扩展 。 

局 部 连接 层 与 平 铺 卷 积 层 都 和 最 大 池 化 有 一 些 有 趣 的 关联 : 这 些 层 的 探测 单元 
都 是 由 不 同 的 过 滤器 驱动 的 。 如 果 这 些 过 滤器 能 够 学 会 探测 相同 隐 含 特征 的 不 同 变 
换 形式 ， 那 么 最 大 池 化 的 单元 对 于 学 得 的 变换 就 具有 不 变性 ( 如 图 9.9 所 示 )。 卷 积 
层 对 于 平移 具有 内 置 的 不 变性 。 

实现 卷 积 网 络 时 ， 通 常 也 需要 除 卷 积 以 外 的 其 他 运算 。 为 了 实现 学 习 ， 必 须 在 
给 定 输出 的 梯度 时 能 够 计算 核 的 梯度 。 在 一 些 简 单 情况 下 ， 这 种 运算 可 以 通过 卷 积 
来 实现 ， 但 在 很 多 我 们 感 兴趣 的 情况 下 ， 包 括 步 幅 大 于 1 的 情况 ， 并 不 具有 这 样 的 
性 质 。 

回忆 一 下 卷 积 是 一 种 线性 运算 ， 所 以 可 以 表示 成 矩阵 乘法 的 形式 (如 果 我 们 首 
先 把 输入 张 量变 形 为 一 个 扁平 的 向 量 )。 其 中 包含 的 矩阵 是 关于 卷 积 核 的 函数 。 这 个 
和 矩阵 是 稀 琉 的 并 且 核 的 每 个 元 素 都 复制 给 矩阵 的 多 个 元 素 。 这 种 观点 能 够 帮助 我 们 
导出 实现 一 个 卷 积 网 络 所 需 的 很 多 其 他 运算 。 

通过 卷 积 定义 的 抢 阵 转 置 的 乘法 就 是 这 样 一 种 运算 。 这 种 运算 用 于 在 卷 积 层 反 
向 传播 误差 的 导数 ,所 以 它 在 训练 多 于 一 个 隐藏 层 的 卷 积 网 络 时 是 必要 的 。 如 果 我 们 
想 要 从 隐藏 层 单元 重 构 可 视 化 单元 时 ， 同 样 的 运算 也 是 需要 的 (Simard et al., 1992). 
重 构 可 视 化 单元 是 本 书 第 三 部 分 的 模型 广泛 用 到 的 一 种 运算 ， 这 些 模型 包括 自 编码 
器 、RBM 和 稀 玻 编码 等 等 。 构 建 这 些 模型 的 卷 积 化 的 版 本 都 要 用 到 转 置 化 卷 积 。 类 
似 核 梯度 运算 ， 这 种 输入 梯度 运算 在 某 些 情况 下 可 以 用 卷 积 来 实现 ， 但 在 一 般 情 况 
下 需要 用 到 第 三 种 运算 来 实现 。 必 须 非 常 小 心地 来 使 这 种 转 置 运算 和 前 向 传播 过 程 


5 译 者 注 : 原文 将 K 误 写 成 了 ko 
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相 协 调 。 转 置 运算 返回 的 输出 的 大 小 取决 于 三 个 方面 : 零 填 充 的 策略 、 前 向 传播 运 
算 的 步 幅 以 及 前 向 传播 的 输出 映射 的 大 小 。 在 一 些 情况 下 ， 不 同 大 小 的 输入 通过 前 
向 传播 过 程 能 够 得 到 相同 大 小 的 输出 映射 ， 所 以 必须 明确 地 告知 转 置 运算 原始 输入 
的 大 小 。 

这 三 种 运算 一 一 卷 积 、 从 输出 到 权重 的 反 向 传播 和 从 输出 到 输入 的 反问 传播 
一 一 对 于 训练 任意 深度 的 前 馈 卷 积 网 络 ， 以 及 训练 带 有 ( 基于 卷 积 的 转 置 的 ) 重 构 
函数 的 卷 积 网 络 ， 这 三 种 运算 都 足以 计算 它们 所 需 的 所 有 梯度 。 对 于 完全 一 般 的 多 
维 、 多 样 例 情况 下 的 公式 ， 完 整 的 推导 可 以 参考 Goodfellow (2010)。 为 了 直观 说 明 
这 些 公式 是 如 何 起 作用 的 ， 我 们 这 里 给 出 一 个 二 维 单 个 样 例 的 版 本 。 

假设 我 们 想 要 训练 这 样 一 个 卷 积 网 络 ， 它 包含 步 幅 为 s 的 步 幅 卷 积 ， 该 卷 积 的 
核 为 K， 作 用 于 多 通道 的 图 像 V, 定义 为 c(K;V,s)， 就 像 式 (9.8) 中 一 样 。 假 设 我 们 
想 要 最 小 化 某 个 损失 函数 J(V,K)。 在 前 向 传播 过 程 中 ,我 们 需要 用 c 本 身 来 输出 
Z， 然 后 Z 传递 到 网 络 的 其 余部 分 并 且 被 用 来 计算 损失 函数 J。 在 反 向 传播 过 程 中 ， 
我 们 会 得 到 一 个 张 量 G 满足 Gi j,k = ae. J(V, K). 

为 了 训练 网 络 ， 我 们 需要 对 核 中 的 权重 求 导 。 为 了 实现 这 个 目的 ， 我 们 可 以 使 
用 一 个 函数 





g(G, V, S)ijkl = J(V, K) = X Gin Vj. (m—1)x s--k,(n—1) x s--L- (9.11) 


m,n 


< 
OK, iid 


如 果 这 一 层 不 是 网 络 的 底层 ,我 们 需要 对 V 求 梯度 来 使 得 误差 进一步 反 向 传播 。 


我 们 可 以 使 用 如 下 的 函数 
h(K,G, s);,j.i E INK) (9.12) 
UK 
一 »» > Kg,i,m,p Gqii;n- (9.13) 
lm n,p q 





s.t. s.t. 
(1—1)xs4-moj (n-1)x st p—k 


第 十 四 章 描述 的 自 编码 需 网 络 ， 是 一 些 被 训练 成 把 输入 拷贝 到 输出 的 前 馈 网 
络 。 一 个 简单 的 例子 是 PCA 算法 ,将 输入 zx 拷贝 到 一 个 近似 的 重 构 值 "， 通 过 函数 
W' Wa 来 实现 。 使 用 权重 矩阵 转 置 的 乘法 ， 就 像 PCA 算法 这 种 ， 在 一 般 的 自 编码 
器 中 是 很 常见 的 。 为 了 使 这 些 模型 卷 积 化 ， 我 们 可 以 用 函数 h 来 实现 卷 积 运算 的 转 
置 。 假 定 我 们 有 和 Z 相同 形式 的 隐藏 单元 H， 并 且 我 们 定义 一 种 重 构 运算 


R = A(K,H, s). (9.14) 
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为 了 训练 自 编 码 器 ， 我 们 会 得 到 关于 R 的 梯度 ， 表 示 为 一 个 张 量 E。 为 了 训练 
解码 器 ， 我 们 需要 获得 对 于 K 的 梯度 ， 这 通过 g(H,E,s) 来 得 到 。 为 了 训练 编码 器 ， 
我 们 需要 获得 对 于 H 的 梯度 ， 这 通过 c(K,E,s) 来 得 到 。 通 过 用 c 和 对 9 求 微分 
也 是 可 行 的 ， 但 这 些 运算 对 于 任何 标准 神经 网 络 上 的 反 向 传播 算法 来 说 都 是 不 需要 
的 。 

一 般 来 说 ， 在 卷 积 层 从 输入 到 输出 的 变换 中 我 们 不 仅仅 只 用 线性 运算 。 我 们 一 
般 也 会 在 进行 非 线 性 运算 前 ， 对 每 个 输出 加 入 一 些 偏 置 项 。 这 样 就 产生 了 如 何在 偏 
置 项 中 共享 参数 的 问题 。 对 于 局 部 连接 层 ， 很 自然 地 对 每 个 单元 都 给 定 它 特有 的 偏 
置 ， 对 于 平 铺 卷 积 ， 也 很 自然 地 用 与 核 一 样 的 平 铺 模 式 来 共享 参数 。 对 于 卷 积 层 来 
说 ,通常 的 做 法 是 在 输出 的 每 一 个 通道 上 都 设置 一 个 偏 置 ， 这 个 偏 置 在 每 个 卷 积 
射 的 所 有 位 置 上 共享 。 然 而 ， 如果 输入 是 已 知 的 固定 大 小 , 也 可 以 在 输出 映射 的 每 个 
位 置 学 习 一 个 单独 的 俩 置 。 分 离 这 些 偏 置 可 能 会 稍稍 降低 模型 的 统计 效率 ， 但 同时 
也 允许 模型 来 校正 图 像 中 不 同位 置 的 统计 差异 。 例 如 ， 当 使 用 隐 含 的 零 填充 时 ， 图 
像 边 缘 的 探测 单元 接收 到 较 少 的 输入 ， 因 此 需要 较 大 的 侦 置 。 
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Channel coordinates 





Spatial coordinates 











图 9.15: 卷 积 网 络 的 前 两 个 输出 通道 只 和 前 两 个 输入 通道 相连 ， 随 后 的 两 个 输出 通道 只 和 随后 的 
两 个 输入 通道 相连 。 
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; 











图 9.16: 局 部 连接 层 、 平 铺 卷 各 和 标准 卷 积 的 比较 。 当 使 用 相同 大 小 的 核 时 ， 这 三 种 方法 在 单元 之 
间 具 有 相同 的 连接 。 此 图 是 对 使 用 两 个 像素 宽 的 核 的 说 明 。 这 三 种 方法 之 间 的 区 别 在 于 它们 如 何 
共享 参数 。( 上 ) 局 部 连接 层 根 本 没有 共享 参数 。 我 们 对 每 个 连接 使 用 唯一 的 字母 标记 ， 来 表明 每 
个 连接 都 有 它 自 身 的 权重 。( 中 汪 铺 卷 积 有 个 不 同 的 核 。 这 里 我 们 说 明 t= 2 的 情况 。 其 中 一 个 
核 具 有 标记 为 “a” 和“b” 的 边 ， 而 男 一 个 具有 标记 为 “c” 和 “d” 的 边 。 每 当 我 们 在 输出 中 右 移 一 
个 像素 后 , 我们 使 用 一 个 不 同 的 核 。 这 意味 着 ,与 局 部 连接 层 类 似 , 输出 中 的 相 邻 单元 具有 不 同 的 
参数 。 与 局 部 连接 层 不 同 的 是 ,在 我 们 遍历 所 有 可 用 的 t 个 核 之 后 ,我 们 循环 回 到 了 第 一 个 核 。 如 
果 两 个 输出 单元 间隔 t 个 步 长 的 倍数 ， 则 它们 共享 参数 。( 下 ) 传统 卷 积 等 效 于 t = 1 的 平 铺 卷 积 。 
它 只 有 一 个 核 ， 并 且 被 应 用 到 各 个 地 方 ， 我 们 在 图 中 表示 为 在 各 人 处 使 用 具有 标记 为 “a FI "b" Bg 
边 的 核 。 
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9.6 ”结构 化 输出 


卷 积 神经 网 络 可 以 用 于 输出 高 维 的 结构 化 对 象 ， 而 不 仅仅 是 预测 分 类 任务 的 类 
标签 或 回归 任务 的 实数 值 。 通 常 这 个 对 象 只 是 一 个 张 量 ， 由 标准 卷 积 层 产生 。 例 如 ， 
模型 可 以 产生 张 量 S， 其 中 5; ) 是 网 络 的 输入 像素 (G, k) 属于 类 i 的 概率 。 这 允许 
模型 标记 图 像 中 的 每 个 像素 ， 并 绘制 沿 着 单个 对 象 轮廓 的 精确 掩 模 。 

经 常 出 现 的 一 个 问题 是 输出 平面 可 能 比 输入 平面 要 小 ， 如 图 9.13 所 示 。 用 于 
对 图 像 中 单个 对 象 分 类 的 常用 结构 中 ， 网 络 空间 维 数 的 最 大 减少 来 源 于 使 用 大 步 
幅 的 池 化 层 。 为 了 产生 与 输入 大 小 相似 的 输出 映射 ， 我 们 可 以 避免 把 池 化 放 在 一 起 
(Jain et al., 2007)。 另 一 种 策略 是 单纯 地 产生 一 张 低 分 辩 率 的 标签 网 格 (Pinheiro 
and Collobert, 2014, 2015)。 最 后 ， 原 则 上 可 以 使 用 具有 单位 步 幅 的 池 化 操作 。 

对 图 像 逐 个 像素 标记 的 一 种 策略 是 先 产 生 图 像 标 签 的 原始 猜测 ， 然 后 使 用 相 邻 
像素 之 间 的 交互 来 修正 该 原始 猜测 。 重 复 这 个 修正 步骤 数 次 对 应 于 在 每 一 步 使 用 相 
同 的 卷 积 , 该 卷 积 在 深层 网 络 的 最 后 几 层 之 间 共 享 权重 (Jain etal., 2007)。 这 使 得 在 
层 之 间 共 享 参数 的 连续 的 卷 积 层 所 执行 的 一 系列 运算 ， 形 成 了 一 种 特殊 的 循环 神经 
网 络 (Pinheiro and Collobert, 2014, 2015)。 图 9.17 给 出 了 这 样 一 个 循环 卷 积 网 络 的 
结构 。 

一 旦 对 每 个 像素 都 进行 了 预测 ， 我 们 就 可 以 使 用 各 种 方法 来 进一步 处 理 这 些 
预测 ， 以 便 获得 图 像 在 区 域 上 的 分 割 (Briggman et al., 2009; Turaga et al., 2010; 
Farabet et al., 2013)。 一 般 的 想法 是 假设 大 片 相连 的 像素 倾向 于 对 应 着 相同 的 标签 。 
图 模型 可 以 描述 相 邻 像素 间 的 概率 关系 。 或 者 ， 卷 积 网 络 可 以 被 训练 来 最 大 化 地 近 
似 图 模型 的 训练 目标 (Ning et al., 2005; Thompson et al., 2014)。 
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图 9.17: 用 于 像素 标记 的 循环 卷 积 网 络 的 示例 。 输入 是 图 像 张 量 X， 它 的 轴 对 应 图 像 的 行 、 列 和 和 通 
道 ( 红 , 绿 ， 蓝 )。 目标 是 输出 标签 张 量 六， 它 遵循 每 个 像素 的 标签 的 概率 分 布 。 该 张 量 的 轴 对 应 
图 像 的 行 、 列 和 不 同类 别 。 循 环 网 络 通过 使 用 立 的 先前 估计 作为 创建 新 估计 的 输入 ， 来 适 代 地 改 
善 其 估计 ， 而 不 是 单 次 输出 Ý, 。 每 个 更 新 的 估计 使 用 相同 的 参数 ， 并 且 估 计 可 以 如 我 们 所 愿 地 被 
改善 任意 多 次 。 每 一 步 使 用 的 卷 积 核 张 量 U， 是 用 来 计算 给 定 输 大 图 像 的 隐藏 表示 的 。 核 张 量 V 
用 于 产生 给 定 隐藏 值 时 标签 的 估计 。 除 了 第 一 步 之 外 ， 核 W 都 对 Y. 进行 卷 积 来 提供 隐藏 层 的 输 
As 在 第 一 步 中 ,此 项 由 零 代 替 。 因 为 每 二 步 使 用 相同 的 参数 ， 所 以 这 是 一 个 循环 网 络 的 例子 ， 如 
第 十 章 所 述 。 



































































































































9.7 ”数据 类 型 


卷 积 网 络 使 用 的 数据 通常 包含 多 个 通道 ， 每 个 通道 是 时 间 上 或 空间 中 某 一 点 的 
不 同 观测 量 。 参 考 表 9.1 来 了 解 具有 不 同 维 数 和 通道 数 的 数据 类 型 的 例子 。 

卷 积 网 络 用 于 视频 的 例子 ， 可 以 参考 Chen et al. (2010). 

到 目前 为 止 ， 我 们 仅 讨论 了 训练 和 测试 数据 中 的 每 个 样 例 都 有 相同 的 空间 维度 
的 情况 。 卷 积 网 络 的 一 个 优点 是 它们 还 可 以 处 理 具有 可 变 的 空间 尺度 的 输入 。 这 些 
类 型 的 输入 不 能 用 传统 的 基于 矩阵 乘法 的 神经 网 络 来 表示 。 这 为 卷 积 网 络 的 使 用 提 
供 了 令 人 信服 的 理由 ， 即 使 当 计算 开销 和 过 拟 合 都 不 是 主要 问题 时 。 

例如 ， 考 虑 一 组 图 像 的 集合 ， 其 中 每 个 图 像 具 有 不 同 的 高 度 和 宽度 。 目 前 还 不 
清楚 如 何 用 固定 大 小 的 权重 矩阵 对 这 样 的 输入 进行 建 模 。 卷 积 就 可 以 很 直接 地 应 用 ; 
核 依据 输入 的 大 小 简单 地 被 使 用 不 同 次 ， 并且 卷 积 运算 的 输出 也 相应 地 缩放 。 卷 积 
可 以 被 视 为 矩阵 乘法 ; 相同 的 卷 积 核 为 每 种 大 小 的 输入 引入 了 一 个 不 同 大 小 的 双重 
分 块 循环 矩阵 。 有 了 时， 网 络 的 输出 允许 和 输入 一 样 具 有 可 变 的 大 小 ， 例 如 如 果 我 们 
想 要 为 输入 的 每 个 像素 分 配 一 个 类 标签 。 在 这 种 情况 下 ， 不 需要 进一步 的 设计 工作 。 
在 其 他 情况 下 ， 网 络 必须 产生 一 些 固定 大 小 的 输出 ， 例 如 ， 如 果 我 们 想 要 为 整个 图 
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9.7 


单 通道 


多 通道 





1 维 


音频 波形 : 卷 积 的 轴 对 应 于 时 间 。 
我 们 将 时 间 离 散 化 并 且 在 每 个 时 
间 点 测量 一 次 波形 的 振幅 。 


骨架 动画 (skeleton animation) 数 
据 : 计算 机 泻 染 的 3D 角色 动画 是 
通过 随时 间 调 整 “ 骨 架 ” 的 姿势 
而 生成 的 。 在 每 个 时 间 点 , 角色 的 
姿势 通过 骨架 中 的 每 个 关节 的 角 
度 来 描述 。 我 们 输入 到 卷 积 模型 
的 数据 的 每 个 通道 ， 表 示 一 个 关 
节 关 于 一 个 轴 的 角度 。 





2 维 


已 经 使 用 傅立叶 变换 预 处 理 过 的 
音频 数据 : 我 们 可 以 将 音频 波形 
变换 成 2 维 张 量 ， 不 同 的 行 对 应 
不 同 的 频率 ， 不 同 的 列 对 应 不 同 
的 时 间 点 。 在 时 间 轴 上 使 用 卷 积 
使 模型 等 效 于 在 时 间 上 移动 。 在 
频率 轴 上 使 用 卷 积 使 得 模型 等 效 
于 在 频率 上 移动 ， 这 使 得 在 不 同 
八 度 音阶 中 播放 的 相同 旋律 产生 
相同 的 表示 ， 但 处 于 网 络 输出 中 
的 不 同 高 度 。 





彩色 图 像 数据 : 其 中 一 个 通道 包 
含 红 色 像 素 ， 另 一 个 包含 绿色 像 
A, 最 后 一 个 包含 蓝 色 像素 , 在 图 
像 的 水 平 轴 和 竖 直 轴 上 移动 卷 积 
Bx, WU IP e ESSE 


性 


co 











3 维 





体积 数据 : 这 种 数据 一 般 来 源 于 
医学 成 像 技术 ， 例 如 CT 扫描 等 。 




















彩色 视频 数据 : 其 中 一 个 轴 对 应 
着 时 间 ， 男 一 个 轴 对 应 着 视频 帧 


的 高 度 ， 最 后 一 个 对 应 着 视频 由 
的 宽度 。 


: 用 于 卷 积 网 络 的 不 同 数据 格式 的 示例 。 
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像 指 定单 个 类 标签 。 在 这 种 情况 下 ， 我 们 必须 进行 一 些 额外 的 设计 步骤 ， 例 如 插入 
一 个 池 化 层 ， 池 化 区 域 的 大 小 要 与 输入 的 大 小 成 比例 ， 以 便 保 持 固 定数 量 的 池 化 输 
出 。 这 种 策略 的 一 些 例子 可 以 参考 图 9.11 。 

注意 ,使 用 卷 积 处 理 可 变 尺寸 的 输入 ， 仪 对 输入 是 因为 包含 对 同 种 事物 的 不 同 
量 的 观察 (时 间 上 不 同 长 度 的 记录 ， 空 间 上 不 同 宽度 的 观察 等 ) 而 导致 的 尺寸 变化 这 
种 情况 才 有 意义 。 如 果 输 入 是 因为 它 可 以 选择 性 地 包括 不 同 种 类 的 观察 而 具有 可 变 
KT, 使 用 卷 积 是 不 合理 的 。 例 如 ， 如 果 我 们 正在 处 理 大 学 申请 ， 并 且 我 们 的 特征 
包括 成 绩 等 级 和 标准 化 测试 分 数 ， 但 不 是 每 个 申请 人 都 进行 了 标准 化 测试 ， 则 使 用 
相同 的 权重 来 对 成 绩 特征 和 测试 分 数 特征 进行 卷 积 是 没有 意义 的 。 





9.8 ”高 效 的 卷 积 算法 


现代 卷 积 网 络 的 应 用 通常 需要 包含 超过 百 万 个 单元 的 网 络 。 利 用 并 行 计算 资源 
的 强大 实现 是 很 关键 的 ， 如 第 12.1 节 中 所 描述 的 。 然 而 ， 在 很 多 情况 下 ， 也 可 以 通 
过 选择 适当 的 卷 积 算法 来 加 速 郑 积 。 

卷 积 等 效 于 使 用 傅立叶 变换 将 输入 与 核 都 转换 到 频 域 、 执 行 两 个 信号 的 逐 点 相 
乘 ， 再 使 用 传 立 叶 道 变换 转换 回 时 域 。 对 于 某 些 问 题 的 规模 ， 这 种 算法 可 能 比 离散 
卷 积 的 朴素 实现 更 快 。 

当 一 个 d 维 的 核 可 以 表示 成 d 个 向 量 (每 一 维 一 个 向 量 ) 的 外 积 时 ， 该 核 被 称 
为 可 分 离 的 (separable )。 当 核 可 分 离 时 ， 朴 素 的 卷 积 是 低 效 的 。 它 等 价 于 组 合 d 个 
一 维 卷 积 ， 每 个 卷 积 使 用 这 些 向 量 中 的 一 个 。 组 合 方法 显著 快 于 使 用 它们 的 外 积 3 
执行 一 个 d 维 的 卷 积 。 并 且 核 也 只 要 更 少 的 参数 来 表示 成 向 量 。 如 果 核 在 每 一 维 者 
是 w 个 元 素 宽 ,那么 朴素 的 多 维 卷 积 需要 (u^!) 的 运行 时 间 和 参数 存储 空间 ， 而 可 
分 离 卷 积 只 需要 O(w x d) 的 运行 时 间 和 参数 存储 空间 。 当 然 ， 并 不 是 每 个 卷 积 都 可 
以 表示 成 这 种 形式 。 

设计 更 快 的 执行 卷 积 或 近似 卷 积 ， 而 不 损害 模型 准确 性 的 方法 ， 是 一 个 活跃 的 
研究 领域 。 甚 至 仅 提高 前 向 传播 效率 的 技术 也 是 有 用 的 ， 因 为 在 商业 环境 中 ， 通 党 
部 署 网 络 比 训练 网 络 还 要 耗资 源 。 
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通常 ， 卷 积 网 络 训练 中 最 昂贵 的 部 分 是 学 习 特征 。 输 出 层 的 计算 代价 通常 相对 
不 高 ， 因 为 在 通过 若干 层 池 化 之 后 作为 该 层 输 入 的 特征 的 数量 较 少 。 当 使 用 梯度 下 
降 执行 监督 训练 时 ， 每 步 梯 度 计算 需要 完整 地 运行 整个 网 络 的 前 向 传播 和 反 向 传播 。 
减少 卷 积 网 络 训练 成 本 的 一 种 方式 是 使 用 那些 不 是 由 监督 方式 训练 得 到 的 特征 。 

有 三 种 基本 策略 可 以 不 通过 监督 训练 而 得 到 卷 积 核 。 其 中 一 种 是 简单 地 随机 初 
始 化 它们 。 男 一 种 是 手动 设计 它们 ,例如 设置 每 个 核 在 一 个 特定 的 方向 或 尺度 来 检 
测 边缘 。 最后， 可 以 使 用 无 监督 的 标准 来 学 习 核 。 例 如，Coates et al. (2011) 将 天 均 
值 聚 类 算法 应 用 于 小 图 像 块 ， 然 后 使 用 每 个 学 得 的 中 心 作为 卷 积 核 。 第 三 部 分 描述 
了 更 多 的 无 监督 学 习 方 法 。 使 用 无 监督 的 标准 来 学 习 特 征 ， 使 得 它们 能 够 与 位 于 网 
络 结构 顶层 的 分 类 层 相 互 独立 地 确定 。 然 后 只 需 提取 一 次 全 部 训练 集 的 特征 ， 构 造 
用 于 最 后 一 层 的 新 训练 集 。 假 设 最 后 一 层 类 似 逻 辑 回归 或 者 SVM， 那 么 学 习 最 后 一 
层 通常 是 凸 优化 问题 。 

随机 过 滤器 经 常 在 卷 积 网 络 中 表现 得 出 乎 意料 得 好 Jarrett et al. (2009b); Saxe 
et al. (2011); Pinto et al. (2011); Cox and Pinto (2011). Saxe et al. (2011) WHH, 由 
卷 积 和 随后 的 池 化 组 成 的 层 ， 当 赋予 随机 权重 时 ， 自 然 地 变 得 具有 频率 选择 性 和 平 
移 不 变性 。 他 们 认为 这 提供 了 一 种 廉价 的 方法 来 选择 卷 积 网 络 的 结构 : 首先 通过 仅 
训练 最 后 一 层 来 评估 几 个 卷 积 网 络 结构 的 性 能 ， 然 后 选择 最 好 的 结构 并 使 用 更 昂贵 
的 方法 来 训练 整个 网 络 。 

一 个 中 间 方 法 是 学 习 特 征 ， 但 是 使 用 那 种 不 需要 在 每 个 梯度 计算 步骤 中 都 进行 
完整 的 前 向 和 反问 传播 的 方法 。 与 多 层 感 知 机 一 样 ， 我 们 使 用 贪心 逐 层 预 训练 ， 单 
独 训练 第 一 层 ， 然 后 一 次 性 地 从 第 一 层 提取 所 有 特征 ， 之 后 用 那些 特征 单独 训练 
第 二 层 ， 以 此 类 推 。 第 八 章 描述 了 如 何 实现 监督 的 贪心 逐 层 预 训练 ， 第 三 部 分 将 此 
扩展 到 了 无 监督 的 范畴 。 卷 积 模型 的 贪心 逐 层 预 训 练 的 经 典 模型 是 卷 积 深度 信念 网 
络 (Lee et al., 2009)。 卷 积 网 络 为 我 们 提供 了 相对 于 多 层 感知 机 更 进一步 采用 预 训 
练 策略 的 机 会 。 并 非 一 次 训练 整个 卷 积 层 ， 我 们 可 以 训练 一 小 块 模型 ， 就 像 Coates 
et al. (2011) 使 用 天 均值 做 的 那样 。 然 后 ， 我 们 可 以 用 来 自 这 个 小 块 模型 的 参数 来 定 
义 卷 积 层 的 核 。 这 意味 着 使 用 无 监督 学 习 来 训练 卷 积 网 络 并 且 在 训练 的 过 程 中 完全 
不 使 用 卷 积 是 可 能 的 。 使 用 这 种 方法 , 我们 可 以 训练 非常 大 的 模型 ,并且 只 在 推断 期 
间 产 生 高 计算 成 本 (Ranzato et al., 2007c; Jarrett et al., 2009b; Kavukcuoglu et al., 
2010; Coates et al., 2013)。 这 种 方法 大 约 在 2007 到 2013 年 间 流 行 ， 当 时 标记 的 数 





























ww ai bbc. com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
310 SIL BAR 


据 集 很 小 , 并 且 计算 能 力 有 限 。 如 今 , 大 多 数 卷 积 网 络 以 纯粹 监督 的 方式 训练 , 在 每 
次 训练 迭代 中 使 用 通过 整个 网 络 的 完整 的 前 向 和 反 向 传播 。 

与 其 他 无 监督 预 训练 的 方法 一 样 ， 使 用 这 种 方法 的 一 些 好 处 仍然 难以 说 清 。 无 
监督 预 训练 可 以 提供 一 些 相对 于 监督 训练 的 正则 化 ， 或 者 它 可 以 简单 地 允许 我 们 训 
练 更 大 的 结构 ， 因 为 它 的 学 习 规则 降低 了 计算 成 本 。 





9.10” 卷 积 网 络 的 神经 科学 基础 


卷 积 网 络 也 许 是 生物 学 启发 人 工 智 能 的 最 为 成 功 的 案例 。 虽 然 卷 积 网 络 也 经 过 
许多 其 他 领域 的 指导 ,但 是 神经 网 络 的 一 些 关 键 设计 原则 来 自 于 神经 科学 。 

卷 积 网 络 的 历史 始 于 神经 科学 实验 ， 远 早 于 相关 计算 模型 的 发 展 。 为 了 确定 关 
于 哺乳 动物 视觉 系统 如 何 工作 的 许多 最 基本 的 事实 ， 神 经 生理 学 家 David Hubel 和 
Torsten Wiesel 合作 多 年 (Hubel and Wiesel, 1959, 1962, 1968)。 他 们 的 成 就 最 终 获 
得 了 诺 贝 尔 奖 。 他 们 的 发 现 对 当代 深度 学 习 模型 有 最 大 影响 的 是 基于 记录 猫 的 单个 
神经 元 的 活动 。 他 们 观察 了 猫 的 脑 内 神经 元 如 何 响应 投影 在 猫 前 面 屏 幕 上 精确 位 置 
的 图 像 。 他 们 的 伟大 发 现 是 ， 处 于 视觉 系统 较为 前 面 的 神经 元 对 非常 特定 的 光 模 式 
(例如 精确 定向 的 条 纹 ) 反应 最 强烈 ， 但 对 其 他 模式 几乎 完全 没有 反应 。 

他 们 的 工作 有 助 于 表征 大 脑 功能 的 许多 方面 ， 这 些 方面 超出 了 本 书 的 范围 。 从 
深度 学 习 的 角度 来 看 ， 我 们 可 以 专注 于 简化 的 、 草 图 形式 的 大 脑 功 能 视图 。 

在 这 个 简化 的 视图 中 ， 我 们 关注 被 称 为 V1 的 大 脑 的 一 部 分 ， 也 称 为 初级 视觉 
皮层 (primary visual cortex )。V1 是 大 脑 对 视觉 输入 开始 执行 显著 高 级 处 理 的 第 一 
个 区 域 。 在 该 草图 视图 中 ， 图 像 是 由 光 到 达 了 眼睛 并 刺激 视网膜 (眼睛 后 部 的 光敏 组 
2H) 形成 的 。 视 网 膜 中 的 神经 元 对 图 像 执 行 一 些 简单 的 预 处 理 ， 但 是 基本 不 改变 它 
被 表示 的 方式 。 然 后 图 像 通过 视神经 和 称 为 外 侧 膝 状 核 的 脑 部 区 域 。 这 些 解 剖 区 域 
的 主要 作用 是 仅仅 将 信号 从 眼睛 传递 到 位 于 头 后 部 的 V1。 

卷 积 网 络 层 被 设计 为 描述 V1 的 三 个 性 质 : 





1. V1 可 以 进行 空间 映射 。 它 实际 上 具有 二 维 结构 来 反映 视网膜 中 的 图 像 结构 。 例 
如 ， 到 达 视 网 膜 下 半 部 的 光 仅 影响 V1 相应 的 一 半 。 卷 积 网 络 通过 用 二 维 映 射 
定义 特征 的 方式 来 描述 该 特性 。 


2. V1 包含 许多 简单 细胞 〈simple cell )。 简 单 细胞 的 活动 在 某 种 程度 上 可 以 概括 
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为 在 一 个 小 的 空间 位 置 感受 野 内 的 图 像 的 线性 函数 。 卷 积 网 络 的 检测 天 单元 被 
设计 为 模拟 简单 细胞 的 这 些 性 质 。 


. V1 还 包括 许多 复杂 细胞 (complex cell )。 这 些 细 胞 响应 类 似 于 由 简单 细胞 检 
测 的 那些 特征 ， 但 是 复杂 细胞 对 于 特征 的 位 置 微小 偏 移 具有 不 变性 。 这 启发 
了 卷 积 网 络 的 池 化 单元 。 复 杂 细 胞 对 于 照明 中 的 一 些 变 化 也 是 不 变 的 ， 不 能 简 
单 地 通过 在 空间 位 置 上 池 化 来 刻画 。 这 些 不 变性 激发 了 卷 积 网 络 中 的 一 些 跨 通 
道 池 化 策略 ， 例 如 maxout 单元 (Goodfellow et al., 2013b)。 


CD 








虽然 我 们 最 了 解 V1， 但 是 一 般 认 为 相同 的 基本 原理 也 适用 于 视觉 系统 的 其 他 区 
域 。 在 我 们 视觉 系统 的 草图 视图 中 ， 当 我 们 逐渐 深入 大 脑 时 ， 遵 循 池 化 的 基本 探测 
策略 被 反复 执行 。 当 我 们 穿 过 大 脑 的 多 个 解剖 层 时 ， 我 们 最 终 找 到 了 响应 一 些 特定 
概念 的 细胞 ， 并 且 这 些 细胞 对 输入 的 很 多 种 变换 都 具有 不 变性 。 这 些 细胞 被 昵称 为 
“祖母 细胞 ”一 一 这 个 想法 是 一 个 人 可 能 有 一 个 神经 元 ， 当 看 到 他 祖母 的 照片 时 该 神 
经 元 被 激活 ， 无 论 祖母 是 出 现在 照片 的 左边 或 右边 ， 无 论 照 片 是 她 的 脸 部 的 特写 镜 
头 还 是 她 的 全 身 照 ， 也 无 论 她 处 在 光亮 还 是 黑暗 中 ， 等 等 。 

这 些 祖母 细胞 已 经 被 证 明确 实 存 在 于 人 脑 中 ， 在 一 个 被 称 为 内 侧 矣 叶 的 区 域 
(Quiroga et al., 2005)。 研 究 人 员 测 试 了 单个 神经 元 是 否 会 响应 名 人 的 照片 。 他 们 发 
现 了 后 来 被 称 为 “Halle Berry 神经 元 ”的 神经 元 : 由 Halle Berry 的 概念 激活 的 单 
个 神经 元 。 当 一 个 人 看 到 Halle Berry 的 照片 ，Halle Berry 的 图 画 ， 甚 至 包含 单词 
“Halle Berry” 的 文本 时 ， 这 个 神经 元 会 触发 。 当 然 , 这 与 Halle Berry 本 人 无 关 ; 其 
他 神经 元 会 对 Bill Clinton, Jennifer Aniston 等 的 出 现 做 出 响应 。 

这 些 内 侧 杜 叶 神 经 元 比 现代 卷 积 网 络 更 通用 一 些 ， 这 些 网 络 在 读 取 名 称 时 不 会 
自动 联想 到 识别 人 或 对 象 。 与 卷 积 网 络 的 最 后 一 层 在 特征 上 最 接近 的 类 比 是 称 为 里 
下 皮质 (IT ) 的 脑 区 。 当 查看 一 个 对 象 时 ， 信 息 从 视网膜 经 LGN 流 到 V1， 然 后 到 
V2, V4, 之 后 是 IT。 这 发 生 在 将 见 对 象 的 前 100ms 内 。 如 果 人 允许 一 个 人 继续 观察 对 
象 更 多 的 时 间 ， 那 么 信息 将 开始 回流 ， 因 为 大 脑 使 用 自 上 而 下 的 反馈 来 更 新 较 低级 
脑 区 中 的 激活 。 然 而 ， 如 果 我 们 打 断 人 的 注视 ， 并 且 只 观察 前 100ms 内 的 大 多 数 前 
向 激活 导致 的 放电 率 ， 那 么 IT 被 证 明 与 卷 积 网 络 非常 相似 。 卷 积 网 络 可 以 预测 UT 
放电 率 ， 并 且 在 执行 对 象 识 别 任务 时 与 人 类 〈 时 间 有 限 的 情况 ) 非常 类 似 (DiCarlo, 
2013). 

话 虽 如 此 ， 卷 积 网 络 和 哺乳 动物 的 视觉 系统 之 间 还 是 有 许多 区 别 。 这 些 区 别 有 
一 些 是 计算 神经 科学 家 所 熟知 的 , 但 超出 了 本 书 的 范围 。 还 有 一 些 区 别 尚 未 知晓 ， 
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为 关于 哺乳 动物 视觉 系统 如 何 工作 的 许多 基本 问题 仍 未 得 到 回答 。 简 要 列表 如 下 : 


。 人 有 眼 大 部 分 是 非常 低 的 分 辨 率 ， 除 了 一 个 被 称 为 中 央 四 (fovea ) 的 小 块 。 中 
央 思 仅 观察 在 手臂 长 度 距 离 内 一 块 拇指 大 小 的 区 域 。 虽 然 我 们 觉得 我 们 可 以 看 
到 高 分 辨 率 的 整个 场景 ， 但 这 是 由 我 们 的 大 脑 的 潜意识 部 分 创建 的 错觉 ， 因 为 
它 颖 合 了 我 们 将 见 的 大 于 个 小 区 域 。 大 多 数 卷 积 网 络 实际 上 接收 大 的 全 分 辨 率 
的 照片 作为 输入 。 人 类 大 脑 控 制 几 次 眼 动 ， 称 为 扫 视 (saccade )， 以 将 见 场景 
中 最 显眼 的 或 任务 相关 的 部 分 。 将 类 似 的 注意 力 机 制 融 入 深度 学 习 模 型 是 一 
个 活跃 的 研究 方向 。 在 深度 学 习 的 背景 下 ， 注 意 力 机 制 对 于 自然 语言 处 理 是 最 
成 功 的 ， 参 考 第 12.4.5.1 节 。 研 究 者 已 经 研发 了 几 种 具有 视觉 机 制 的 视觉 模型 ， 
但 到 目前 为 止 还 没有 成 为 主导 方法 (Larochelle and Hinton, 2010; Denil et al., 
2012). 


人 类 视觉 系统 集成 了 许多 其 他 感觉 ， 例 如 听觉 ， 以 及 像 我 们 的 心情 和 想法 一 样 
的 因素 。 卷 积 网 络 迄今 为 止 纯粹 是 视觉 的 。 


人 类 视觉 系统 不 仅仅 用 于 识别 对 象 。 它 能 够 理解 整个 场景 ， 包 括 许多 对 象 和 对 
象 之 间 的 关系 ， 以 及 处 理 我 们 的 身体 与 世界 交互 所 需 的 丰富 的 三 维 几何 信息 。 
卷 积 网 络 已 经 应 用 于 这 些 问题 中 的 一 些 ， 但 是 这 些 应 用 还 处 于 起 步 阶段 。 


即使 像 V1 这 样 简单 的 大 脑 区 域 也 受到 来 自 较 高 级 别 的 反馈 的 严重 影响 。 反 馈 
已 经 在 神经 网 络 模型 中 被 广泛 地 探索 , 但 还 没有 被 证 明 提 供 了 引 人 注 目的 改进 。 


虽然 前 馈 IT 放电 频率 刻画 了 与 卷 积 网 络 特征 很 多 相同 的 信息 ， 但 是 仍 不 清楚 
中 间 计 算 的 相似 程度 。 大 脑 可 能 使 用 非常 不 同 的 激活 和 池 化 函数 。 单 个 神经 元 
的 激活 可 能 不 能 用 单个 线性 过 滤器 的 响应 来 很 好 地 表征 。 最 近 的 V1 模型 涉及 
对 每 个 神经 元 的 多 个 二 次 过 滤器 (Rust et aL, 2005)。 事 实 上 ， 我 们 的 “简单 细 
胞 ”和 “复杂 细胞 ”的 草图 图 片 可 能 并 没有 区 别 ; 简单 细胞 和 复杂 细胞 可 能 是 
相同 种 类 的 细胞 ， 但 是 它们 的 “参数 ”使 得 它们 能 够 实现 从 我 们 所 说 的 “简单 ” 
到 “复杂 ”的 连续 的 行为 。 





























还 值得 一 提 的 是 ， 神 经 科学 很 少 告诉 我 们 该 如 何 训练 卷 积 网 络 。 具 有 里 多 个 空 
间 位 置 的 参数 共享 的 模型 结构 ， 可 以 追溯 到 早期 关于 视觉 的 联结 主义 模型 (Marr 
and Poggio, 1976)， 但 是 这 些 模型 没有 使 用 现代 的 反 辐 传播 算法 和 梯度 下 降 。 例 如 ， 
(Fukushima, 1980) 结合 了 现代 卷 积 网 络 的 大 多 数 模型 结构 设计 元 素 ， 但 依赖 于 层次 
化 的 无 监督 聚 类 算法 。 
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Lang and Hinton (1988) 引入 反问 传播 来 训练 时 延 神经 网 络 (time delay neural 
network, TDNN )。 使 用 当代 术语 来 说 ，TDNN 是 用 于 时 间 序 列 的 一 维 卷 积 网 络 。 用 
于 这 些 模型 的 反 向 传播 不 受 任何 神经 科学 观察 的 启发 ， 并 且 被 一 些 人 认为 是 生物 不 
可 信 的 。 在 基于 使 用 反 向 传播 训练 的 TDNN 成 功 之 后 ，LeCun et al. (1989) 通过 将 
相同 的 训练 算法 应 用 于 图 像 的 2 维 卷 积 来 发 展现 代 卷 积 网 络 。 

到 目前 为 止 ， 我 们 已 经 描述 了 简单 细胞 对 于 某 些 特征 是 如 何 呈 现 粗 略 的 线性 和 
选择 性 ， 复 杂 细 胞 是 如 何 更 加 的 非 线性 ， 并 且 对 于 这 些 简单 细胞 特征 的 某 些 变换 具 
有 不 变性 ， 以 及 在 选择 性 和 不 变性 之 间 交 赫 放置 的 层 可 以 产生 对 非常 特定 现象 的 祖 
母 细 胞 。 我 们 还 没有 精确 描述 这 些 单个 细胞 检测 到 了 什么 。 在 深度 非 线性 网 络 中 ， 
可 能 难以 理解 单个 细胞 的 功能 。 第 一 层 中 的 简单 细胞 相对 更 容易 分 析 ， 因 为 它们 的 
响应 由 线性 函数 驱动 。 在 人 工 神经 网 络 中 ， 我 们 可 以 直接 显示 卷 积 核 的 图 像 ， 来 查 
看 卷 积 层 的 相应 通道 是 如 何 响应 的 。 在 生物 神经 网 络 中 ， 我 们 不 能 访问 权重 本 身 。 
相反 ， 我 们 在 神经 元 自身 中 放置 一 个 电极 ， 在 动物 视网膜 前 显示 几 个 白 噪 声 图 像样 
本 ， 并 记录 这 些 样本 中 的 每 一 个 是 如 何 导 致 神经 元 激活 的 。 然 后 ， 我 们 可 以 对 这 些 
响应 拟 合 线性 模型 ， 以 获得 近似 的 神经 元 权重 。 这 种 方法 被 称 为 反 向 相关 (reverse 
correlation ) (Ringach and Shapley, 2004) 

反问 相关 向 我 们 表明 ,大 多 数 的 V1 细胞 具有 由 Gabor 函数 (Gabor function ) 
所 描述 的 权重 。Gabor 也 数 描述 在 图 像 中 的 2 维 点 处 的 权重 。 我 们 可 以 认为 图 像 是 
2 维 坐标 T(z,y) 的 函数 。 类 似 地 ， 我 们 可 以 认为 简单 细胞 是 在 图 像 中 的 一 组 位 置 采 
样 ， 这 组 位 置 由 一 组 x 坐标 X 和 一 组 y 坐标 Y 来 定义 ,并 且 使 用 的 权重 wr, y) 也 
是 位 置 的 函数 。 从 这 个 观点 来 看 ， 简 单 细胞 对 于 图 像 的 响应 由 下 式 给 出 

WD 2 > Y wlz, y), y). (9.15) 
ZEX YEY 
特别 地 ，w(z,y) 采用 Gabor 函数 的 形式 : 

w(z, y; o, Bx, By, f, O, Z0, Yo, T) = aexp(— brz? — byy’) cos(fz' + 4), (9.16) 

其 中 




















x’ = (x — zo) cos(7) + (y — yo) sin(7) (9.17) 
以 及 
y = — (x — xo) sin(r) + (y — yo) cos(7). (9.18) 
这 里 a, Br, By, f. o, xo, yo, T 都 是 控制 Gabor 函数 性 质 的 参数 。 图 9.18 给 出 
T Gabor 函数 在 不 同 参数 集 上 的 一 些 例 子 。 
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图 9.18: 具有 各 种 参数 设置 的 Gabor 函数 。 白 色 表 示 大 的 正 权 重 ,， BROAN, FEK 
色 对 应 于 零 权 重 。( 左 ) 控制 坐标 系 的 参数 具有 不 同 值 的 Gabor 函数 ， 这 些 参 数 包括 : xo. yo 和 yo 
在 该 网 格 中 的 每 个 Gabor 函数 被 赋予 和 它 在 网 格 中 的 位 置 成 比例 的 zo 和 yo 的 值 ， 并 且 7 被 选 
择 为 使 得 每 个 Gabor 过 滤器 对 从 网 格 中 心 辐射 出 的 方向 非常 敏感 。 对 于 其 他 两 幅 图 ，zo 、yo 和 
y MEAZ, (F) 具有 不 同 高 斯 比例 参数 be 和 By 的 Gabor 函数 。 当 我 们 从 左 到 右 通 过 网 格 时 ， 
Gabor 函数 被 设置 为 增加 宽度 (减少 Be); 当 我 们 从 上 到 下 通过 网 格 时 ，Gabor 函数 被 设置 为 为 
增加 高 度 (减少 By )。 对 于 其 他 两 幅 图 ，6 值 固定 为 图 像 宽 度 的 1.5 fits. (25) 具有 不 同 的 正弦 参数 
f fll ó 的 Gabor 函数 。 当 我 们 从 上 到 下 移动 时 ，f 增加 ; 当 我 们 从 左 到 右 移 动 时 ，9 增加 。 对 于 
其 他 两 幅 图 ，9 固定 为 0，f 固定 为 图 像 宽度 的 5 fi. 





















































参数 ro, yo 和 7 定义 坐标 系 。 我 们 平移 和 旋转 x A 来 得 到 x! My’. BARH, 
简单 细胞 会 响应 以 点 (xo, yo) 为 中 心 的 图 像 特征 ， 并 且 当 我 们 沿 着 从 水 平方 向 旋转 7 
弧度 的 线 移动 时 ， 简 单 细胞 将 响应 亮度 的 变化 。 

VEN a! I y APR, BAR w 会 响应 当 我 们 沿 着 s 移动 时 的 亮度 变化 。 它 有 两 
个 重要 的 因子 : 一 个 是 高 斯 冰 数 ， 另 一 个 是 余弦 函数 。 

高 斯 因子 a exp(—8,2? — 8,y?) 可 以 被 视 为 冰 值 项 ， 用 于 保证 简单 细胞 仅 对 接 
Yr z' My 都 为 零点 处 的 值 响应 ， 换 名 话说 ， 接 近 细 胞 接受 域 的 中 心 。 尺 度 因 子 a 
调整 简单 细胞 响应 的 总 的 量 级 ， 而 GB, 和 By 控制 接受 域 消退 的 速度 。 

余弦 因子 cos( fa’ + b) 控制 简单 细胞 如 何 响应 延 x' 轴 的 亮度 改变 。 人 参数 上 控制 
余弦 的 频率 ，9 控制 它 的 相位 偏 移 。 

合 在 一 起 ， 简 单 细 胞 的 这 个 草图 视图 意味 着 ， 简 单 细 胞 对 在 特定 位 置 处 、 特 定 
方向 上 上、 特定 空 间 频 率 的 亮度 进行 啊 应 。 当 图 像 中 的 光波 与 细胞 的 权重 具有 相同 的 


相位 时 ， 简 单 细胞 是 最 兴奋 的 。 这 种 情况 发 生 在 当 图 像 亮 时 ， 它 的 权重 为 正 ， 而 图 
像 暗 时 ， 它 的 权重 为 负 。 当 光波 与 权重 完全 异 相 时 ， 简 单 细胞 被 抑制 一 一 当 图 像 较 
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暗 时 ， 它 的 权重 为 正 ; 较 亮 时 ， 它 的 权重 为 负 。 

复杂 细胞 的 草图 视图 是 它 计 算 包 含 两 个 简单 细胞 响应 的 2 维 向 量 的 [2 范 数 : 
c(I) = V/so(1)? + s1(7)?。 一 个 重要 的 特殊 情况 是 当 s: 和 so 具有 除 o 以 外 都 相同 的 
参数 , 并 且 o 被 设置 为 使 得 s 与 so 相位 相差 四 分 之 一 周期 时 。 在 这 种 情况 下 ,so 和 
sı 形成 象限 对 ( quadrature pair )。 当 高 斯 重新 加 权 的 图 像 (o, y) exp( 8,27? — byy?) 
包含 具有 频率 f、 在 方向 7 上、 接近 (xo, yo) 的 高 振幅 正弦 波 时 ， 用 先前 方法 定义 的 
复杂 细胞 会 响应 ， 并且 不 管 该 波 的 相位 偏 移 。 换 句 话 说 ,复杂 细胞 对 于 图 像 在 方向 7 
上 的 微小 变换 或 者 翻转 图 像 (用 白色 代替 黑色 ， 反 之 亦 然 ) 具有 不 变性 。 

神经 科学 和 机 器 学 习 之 间 最 显著 的 对 应 关系 ， 是 从 视觉 上 比较 机 器 学 习 模 型 学 
得 的 特征 与 使 用 V1 得 到 的 特征 。Olshausen and Field (1996) 说 明 ， 一 个 简单 的 无 
监督 学 习 算 法 , 稀 蚊 编码 ,学 习 的 特征 具有 与 简单 细胞 类 似 的 接受 域 。 从 那 时 起 , 我 
们 发 现 ， 当 应 用 于 自然 图 像 时 ， 极 其 多 样 的 统计 学 习 算 法 学 习 类 Gabor 函数 的 特征 。 
这 包括 大 多 数 深 度 学 习 算法 ， 它 们 在 其 第 一 层 中 学 习 这 些 特 征 。 图 9.19 给 出 了 一 些 
例子 。 因 为 如 此 众多 不 同 的 学 习 算 法 学 习 边 缘 检测 器 ， 所 以 很 难 仅 基于 学 习 算 法 学 
得 的 特征 ,来 断定 哪 一 个 特定 的 学 习 算 法 是 “正确 ”的 大 脑 模型 ( 虽然 ， 当 应 用 于 自 
然 图 像 时 ， 如 果 一 个 算法 不 能 学 得 某 种 检测 器 时 ， 它 能 够 作为 一 种 否定 标志 )。 这 些 
特征 是 自然 图 像 的 统计 结构 的 重要 部 分 ， 并 且 可 以 通过 许多 不 同 的 统计 建 模 方法 来 
重新 获得 。 读 者 可 以 参考 (Hyvärinen et al., 2009) 来 获得 自然 图 像 统 计 领 域 的 综述 。 
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图 9.19: 许多 机 器 学 习 算法 在 应 用 于 自然 图 像 时 , 会 学 习 那些 用 来 检测 边缘 或 边缘 的 特定 颜色 的 特 
征 。 这 些 特征 检测 絮 使 人 联想 到 已 知 存在 于 初级 视觉 皮层 中 的 Gabor 函数 。( 左 ) 通过 应 用 于 小 图 
像 块 的 无 监督 学 习 算 法 ( 尖峰 和 平板 稀 琉 编码 ) 学 得 的 权重 。( 右 ) 由 完全 监督 的 卷 积 maxout 网 
络 的 第 一 层 学 得 的 卷 积 核 。 相 邻 的 一 对 过 滤器 驱动 相同 的 maxout 单元 。 
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卷 积 网 络 在 深度 学 习 的 历史 中 发 挥 了 重要 作用 。 它 们 是 将 研究 大 脑 获得 的 深刻 
理解 成 功用 于 机 器 学 习 应 用 的 关键 例子 。 它 们 也 是 第 一 个 表现 良好 的 深度 模型 之 
一 ， 远 远 早 于 任意 深度 模型 被 认为 是 可 行 的 。 卷 积 网 络 也 是 第 一 个 解决 重要 商业 应 
用 的 神经 网 络 ， 并 且 仍 然 是 当今 深度 学 习 商 业 应 用 的 前 沿 。 例 如 , 在 20 世纪 90 年 
f&, AT&T 的 神经 网 络 研究 小 组 开发 了 一 个 用 于 读 取 支票 的 卷 积 网 络 (LeCun et al., 
2001)。 到 90 FRR, NEC 部 署 的 这 个 系统 已 经 被 用 于 读 取 美 国 10% 以 上 的 文 
票 。 后 来 ， 微 软 部 署 了 若干 个 基于 卷 积 网 络 的 OCR 和 手写 识别 系统 (Simard et al., 
2003)。 关 于 卷 积 网 络 的 这 种 应 用 和 更 现代 应 用 的 更 多 细节 ， 参 考 第 十 二 章 。 读 者 可 
以 参考 (LeCun et aL, 2010) 了 解 2010 年 之 前 的 更 为 深入 的 卷 积 网 络 历史 。 

卷 积 网 络 也 被 用 作 在 许多 比赛 中 的 取胜 手段 。 当 前 对 深度 学 习 的 商业 兴趣 的 热 
度 始 于 Krizhevsky et al. (2012a) 赢得 了 ImageNet 对 象 识 别 挑战 ， 但 是 在 那 之 前 ， 
卷 积 网 络 也 已 经 被 用 于 赢得 前 些 年 影响 较 小 的 其 他 机 器 学 习 和 计算 机 视觉 竞赛 了 。 

卷 积 网 络 是 第 一 批 能 使 用 反 回 传播 有 效 训练 的 的 深度 网 络 之 一 。 现 在 仍 不 完全 
清楚 为 什么 卷 积 网 络 在 一 般 的 反 向 传播 网 络 被 认为 已 经 失败 时 反而 成 功 了 。 这 可 能 
可 以 简单 地 归结 为 卷 积 网 络 比 全 连接 网 络 计算 效 率 更 高 ， 因 此 使 用 它们 运行 多 个 实 
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验 并 调整 它们 的 实现 和 超 参数 更 容易 。 更 大 的 网 络 也 似乎 更 容易 训练 。 利 用 现代 硬 
件 ， 大 型 全 连接 的 网 络 在 许多 任务 上 也 表现 得 很 合理 ， 即 使 使 用 过 去 那些 全 连接 网 
络 被 认为 不 能 工作 得 很 好 的 数据 集 和 当时 流行 的 激活 函数 时 ， 现 在 也 能 执行 得 很 好 。 
心理 可 能 神经 网 络 成 功 的 主要 阻碍 ( 实践 者 没有 期 望 神经 网 络 有 效 ， 所 以 他 们 没有 
认真 努力 地 使 用 神经 网 络 )。 无 论 如 何 ， 幸 运 的 是 卷 积 网 络 在 几 十 年 前 就 表现 良好 。 
在 许多 方面 ， 它 们 为 余下 的 深度 学 习 传 递 火炬 ， 并 为 一 般 的 神经 网 络 被 接受 铺 平 了 
道路 。 

卷 积 网 络 提供 了 一 种 方法 来 特 化 神经 网 络 ， 使 其 能 够 处 理 具有 清楚 的 网 格 结构 
拓扑 的 数据 ， 以 及 将 这 样 的 模型 扩展 到 非常 大 的 规模 。 这 种 方法 在 二 维 图 像 拓扑 上 
是 最 成 功 的 。 为 了 处 理 一 维 序列 数据 ， 我 们 接 下 来 转向 神经 网 络 框架 的 另 一 种 强大 
的 特 化 : 循环 神经 网 络 。 





ww ai bbc. com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 


Se AIER: 循环 和 递归 网 络 


循环 神经 网 络 (recurrent neural network ) 或 RNN (Rumelhart et al., 1986c) 
是 一 类 用 于 处 理 序 列 数 据 的 神经 网 络 。 就 像 卷 积 网 络 是 专门 用 于 处 理 网 格 化 数据 X 
(如 一 个 图 像 ) 的 神经 网 络 ， 循 环 神经 网 络 是 专门 用 于 处 理 序 列 aO... aO. 的 神 
经 网 络 。 正 如 卷 积 网 络 可 以 很 容易 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 ， 以 及 处 理 
大 小 可 变 的 图 像 ， 循 环 网 络 可 以 扩展 到 更 长 的 序列 ( 比 不 基于 序列 的 特 化 网 络 长 得 
多 )。 大 多 数 循环 网 络 也 能 处 理 可 变 长 度 的 序列 。 

从 多 层 网 络 出 发 到 循环 网 络 ， 我 们 需要 利用 上 址 纪 80 年 代 机 器 学 习 和 统计 模 
型 早期 思想 的 优点 : 在 模型 的 不 同 部 分 共享 参数 。 参 数 共 享 使 得 模型 能 够 扩展 到 不 
同形 式 的 样本 ( 这 里 指 不 同 长 度 的 样本 ) 并 进行 泛 化 。 如 果 我 们 在 每 个 时 间 点 都 有 
一 个 单独 的 参数 ， 我们 不 但 不 能 汉化 到 训练 时 没有 见 过 序列 长 度 ， 也 不 能 在 时 间 上 
共享 不 同 序列 长 度 和 不 同位 置 的 统计 强度 。 当 信息 的 特定 部 分 会 在 序列 内 多 个 位 置 
出 现时 ， 这 样 的 共享 尤为 重要 。 例 如 ， 考虑 这 两 句 话 :“I went to Nepal in 2009” 和 
“In 2009, I went to Nepal.” 如 果 我 们 让 一 个 机 器 学 习 模 型 读 取 这 两 个 句子 ， 并 提取 
叙述 者 去 Nepal 的 年 份 ， 无 论 “2009 年 ”是 作为 句子 的 第 六 个 单词 还 是 第 二 个 单词 出 
M, 我们 都 希望 模型 能 认 出 “2009 年 ”作为 相关 资料 片段 。 假 设 我 们 要 训练 一 个 处 
理 固 定 长 度 句 子 的 前 馈 网 络 。 传 统 的 全 连接 前 馈 网 络 会 给 每 个 输入 特征 分 配 一 个 单 
独 的 参数 ， 所 以 需要 分 别 学 习 句 子 每 个 位 置 的 所 有 语言 规则 。 相 比 之 下 , 循环 神经 网 
络 在 几 个 时 间 步 内 共享 相同 的 权重 ， 不 需要 分 别 学 习 句 子 每 个 位 置 的 所 有 语言 规则 。 

一 个 相关 的 想法 是 在 1 维 时 间 序 列 上 使 用 卷 积 。 这 种 卷 积 方法 是 时 延 神经 网 
络 的 基础 (Lang and Hinton, 1988; Waibel et al., 1989; Lang et al., 1990)。 卷 积 操 作 
允许 网 络 跨 时 间 共 享 参 数 ， 但 是 浅 层 的 。 卷 积 的 输出 是 一 个 序列 ， 其 中 输出 中 的 每 
一 项 是 相 邻 儿 项 输入 的 函数 。 参 数 共 享 的 概念 体现 在 每 个 时 间 步 中 使 用 的 相同 卷 积 
FR. 循环 神 经 网 络 以 不 同 的 方式 共享 参数 。 输 出 的 每 一 项 是 前 一 项 的 函数 。 输 出 的 
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每 一 项 对 先前 的 输出 应 用 相同 的 更 新 规则 而 产生 。 这 种 循环 方式 导致 参数 通过 很 深 
的 计算 图 共享 。 

为 简单 起 见 ， 我 们 说 的 RNN 是 指 在 序列 上 的 操作 ， 并 且 该 序列 在 时 刻 t (从 
1 到了) 包含 向 量 zx。 在 实际 情况 中 ,循环 网 络 通常 在 序列 的 小 批量 上 操作 ， 并 
且 小 批量 的 每 项 具有 不 同 序列 长 度 +。 我 们 省 略 了 小 批量 索引 来 简化 记号 。 此 外 ， 
时 间 步 索引 不 必 是 字面 上 现实 世界 中 流逝 的 时 间 。 有 时 ， 它 仅 表示 序列 中 的 位 置 。 
RNN 也 可 以 应 用 于 跨越 两 个 维度 的 空间 数据 (如 图 像 )。 当 应 用 于 涉及 时 间 的 数据 ， 
并 且 将 整个 序列 提供 给 网 络 之 前 就 能 观察 到 整个 序列 时 ， 该 网 络 可 具有 关于 时 间 向 
后 的 连接 。 

本 章 将 计算 图 的 思想 扩展 到 包括 循环 。 这 些 周期 代表 变量 自身 的 值 在 未 来 某 
一 时 间 步 对 自身 值 的 影响 。 这 样 的 计算 图 允许 我 们 定义 循环 神经 网 络 。 然 后 ， 我 们 
描述 许多 构建 、 训 练 和 使 用 循环 神经 网 络 的 不 同方 式 。 

本 章 将 简要 介绍 循环 神经 网 络 , 为 获取 更 多 详细 信息 , 我 们 建议 读者 参考 Graves 
(2012) 的 著作 。 





10.1 展开 计算 图 


计算 图 是 形式 化 一 组 计算 结构 的 方式 ， 如 那些 涉及 将 输入 和 参数 映射 到 输出 和 
损失 的 计算 。 综 合 的 介绍 请 参考 第 6.5.1 节 。 本 节 ， 我 们 对 RA (unfolding) 递归 或 
循环 计算 得 到 的 重复 结构 进行 解释 ， 这 些 重复 结构 通常 对 应 于 一 个 事件 链 。 展开 
C unfolding ) 这 个 计算 图 将 导致 深度 网 络 结构 中 的 参数 共享 。 

例如 ， 考 虑 动态 系统 的 经 典 形式 : 


s) = f(s); 9), (10.1) 





其 中 st 称 为 系统 的 状态 。 
s 在 时 刻 t 的 定义 需要 参考 时 刻 t 一 1 时 同样 的 定义 ， 因 此 式 (10.1) 是 循环 的 。 
对 有 限时 间 步 +, 7 — 1 次 应 用 这 个 定义 可 以 展开 这 个 图 。 例 如 7 = 3， 我 们 对 

x (10.1) 展开 ， 可 以 得 到 : 

s® = f(s(2);0) (10.2) 
= f(f(s™;0);0). (10.3) 
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以 这 种 方式 重复 应 用 定义 ， 展 开 等 式 ， 就 能 得 到 不 涉及 循环 的 表达 。 现 在 我 们 
可 以 使 用 传统 的 有 向 无 环 计算 图 呈现 这 样 的 表达 。 
xX (10.1) 和 式 (10.3) 的 展开 计算 图 如 图 10.1 所 示 。 


2 N 
X d f f FÉ UA ou 


图 10.1: 将 式 (10.1) 描述 的 经 典 动态 系统 表示 为 展开 的 计算 图 。 每 个 节点 表示 在 茶 个 时 刻 t 的 状 
aS, FFE PR f 将 t 处 的 状态 映射 到 t 十 1 人 处 的 状态 。 所 有 时 间 步 都 使 用 相同 的 参数 ( 用 于 参数 
化 f 的 相同 9 值 )。 























作为 男 一 个 例子 ， 让 我 们 考虑 由 外 部 信号 oO 驱动 的 动态 系统 ， 
s® = f(s", 20;0), (10.4) 


我 们 可 以 看 到 ， 当 前 状态 包含 了 整个 过 去 序列 的 信息 。 
循环 神经 网 络 可 以 通过 许多 不 同 的 方式 建立 。 就 像 几 乎 所 有 函数 都 可 以 被 认为 
是 前 馈 网 络 ， 本 质 上 任何 涉及 循环 的 函数 都 可 以 被 认为 是 一 个 循环 神经 网 络 。 


很 多 循环 神经 网 络 使 用 式 (10.5) 或 类 似 的 公式 定义 隐藏 单元 的 值 。 为 了 表明 状 
态 是 网 络 的 隐藏 单元 ， 我 们 使 用 变量 h 代表 状态 重 写 式 (10.4) : 





h® = MD 2; 6), (10.5) 


如 图 10.2 所 示 ， 典 型 RNN 会 增加 额外 的 架构 特性 ， 如 读 取 状态 信息 h 进行 预测 的 


输出 层 。 
377 3^ 7 
\ / \ / 
— ~-- f f f ~-7 
f Unfold 


图 10.2: 没有 输出 的 循环 网 络 。 此 循环 网 络 只 处 理 来 自 输入 z 的 信息 ， 将 其 合并 到 经 过 时 间 向 前 
传播 的 状态 ho (A) 回路 原理 图 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 。( 去 ) 同一 网 络 被 视 为 展开 的 
计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 
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当 训练 循环 网 络 根据 过 去 预测 未 来 时 ， 网 络 通常 要 学 会 使 用 n? 作为 过 去 序列 
( 直到 t) 与 任务 相关 方面 的 有 损 摘 要 。 此 摘要 一 般 而 言 一 定 是 有 损 的 ， 因 为 其 映射 
任意 长 度 的 序列 (2, 2), zt we), eo) 到 一 固定 长 度 的 向 量 nO 。 根 据 不 
同 的 训练 准则 ， 摘 要 可 能 选择 性 地 精确 保留 过 去 序列 的 某 些 方面 。 例 如 ， 如 果 在 统 
计 语 言 建 模 中 使 用 的 RNN， 通 常 给 定 前 一 个 词 预测 下 一 个 词 ， 可 能 没有 必要 存储 时 
A t 前 输入 序列 中 的 所 有 信息 ; 而 仅仅 存储 足够 预测 句子 其 余部 分 的 信息 。 最 苛刻 
的 情况 是 我 们 要 求 n 足够 丰富 ， 并 能 大 致 恢复 输入 序列 ， 如 自 编码 器 框架 ( 第 十 























四 章 )。 
式 (10.5) 可 以 用 两 种 不 同 的 方式 绘制 。 一 种 方法 是 为 可 能 在 模型 的 物理 实现 中 
存在 的 部 分 赋予 一 个 节点 ， 如 生物 神经 网 络 。 在 这 个 观点 下 ， 网 络 定义 了 实时 操作 


的 回路 ， 如 图 10.2 的 左 侧 ， 其 当前 状态 可 以 影响 其 未 来 的 状态 。 在 本 章 中 , 我 们 使 用 
回路 图 的 黑色 方块 表明 在 时 刻 t 的 状态 到 时 刻 t 十 1 的 状态 单个 时 刻 延 迟 中 的 相互 作 
Ho i — 228] RNN 的 方法 是 展开 的 计算 图 , 其 中 每 一 个 组 件 由 许多 不 同 的 变量 表 











示 ， 每 个 时 间 步 一 个 变量 ， 表 示 在 该 时 间 点 组 件 的 状态 。 每 个 时 间 步 的 每 个 变量 绘 
制 为 计算 图 的 一 个 独立 节点 ， 如 图 10.2 的 右 侧 。 我 们 所 说 的 展开 是 将 左 图 中 的 回路 


上 映 射 为 右 图 中 包含 重复 组 件 的 计算 图 的 操作 。 目 前 ， 展 开 图 的 大 小 取决 于 序列 长 度 。 
我 们 可 以 用 一 个 函数 gO 代表 经 t 步 展 开 后 的 循环 : 


n? = g(a, gt} gt?) oe BO), ga?) (10.6) 
= f(ATY, 2: 8). (10.7) 


函数 gO 将 全 部 的 过 去 序列 (LO, 67 9, 072, .. wl), wD) 作为 输入 来 生成 当前 状 
态 , 但 是 展开 的 循环 架构 允许 我 们 将 g 分 解 为 函数 f 的 重复 应 用 。 因 此 ， 展 开 过 
程 引 入 两 个 主要 优点 : 


1. 无 论 序 列 的 长 度 ， 学 成 的 模型 始终 具有 相同 的 输入 大 小 ， 因 为 它 指定 的 是 从 一 
种 状态 到 男 一 种 状态 的 转移 ， 而 不 是 在 可 变 长 度 的 历史 状态 上 操作 。 


2. 我 们 可 以 在 每 个 时 间 步 使 用 相同 参数 的 相同 转移 函数 f。 
这 两 个 因素 使 得 学 习 在 所 有 时 间 步 和 所 有 序列 长 度 上 操作 单一 的 模型 是 可 能 的 ， 
而 不 需要 在 所 有 可 能 时 间 步 学 习 独立 的 模型 g%。 学 习 单 一 的 共享 模型 允许 泛 化 到 


没有 见 过 的 序列 长 度 (没有 出 现在 训练 集中 )， 并 且 估 计 模 型 所 需 的 训练 样本 远 远 少 
于 不 带 参数 共享 的 模型 。 
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无 论 是 循环 图 和 展开 图 都 有 其 用 途 。 循 环 图 简洁 。 展 开 图 能 够 明确 描述 其 中 的 
计算 流程 。 展 开 图 还 通过 显 式 的 信息 流动 路 径 帮 助 说 明 信 息 在 时 间 上 向 前 (计算 输 
出 和 损失 ) 和 向 后 ( 计算 梯度 ) 的 思想 。 








10.2 ”循环 神经 网 络 


基于 第 10.1 节 中 的 图 展开 和 参数 共享 的 思想 ， 我 们 可 以 设计 各 种 循环 神经 网 络 。 


oF 


Unfold 





图 10.3: 计算 循环 网 络 (将 z 值 的 输入 序列 映射 到 输出 值 o 的 对 应 序列 ) 训练 损失 的 计算 图 。 损 失 
L 衡量 每 个 o 与 相应 的 训练 目标 y 的 距离 。 当 使 用 softmax 输出 时 ， 我 们 假设 o 是 未 归 一 化 的 
对 数 概率 。 损 失 L 内 部 计算 y = softmax(o)， 并 将 其 与 目标 y 比较 。RNN 输 入 到 隐藏 的 连接 由 
权重 矩阵 加 参数 化 ， 隐 藏 到 隐藏 的 循环 连接 由 权重 矩阵 W 参数 化 以 及 隐藏 到 输出 的 连接 由 权重 
和 矩阵 V BBE. Zh (10.8) 定义 了 该 模型 中 的 前 向 传播 。( 左 ) 使 用 循环 连接 绘制 的 RNN 和 它 的 损 
Ro (E) 同一 网 络 被 视 为 展开 的 计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相关 联 。 







































































循环 神经 网 络 中 一 些 重要 的 设计 模式 包括 以 下 几 种 : 


1. 每 个 时 间 步 都 有 输出 ， 并 且 隐 藏 单元 之 间 有 循环 连接 的 循环 网 络 ， 如 图 10.3 所 
示 。 
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2. 每 个 时 间 步 都 产生 一 个 输出 ， 只 有 当前 时 刻 的 输出 到 下 个 时 刻 的 隐藏 单元 之 间 
有 循环 连接 的 循环 网 络 ， 如 图 10.4 所 示 。 


3. 隐藏 单元 之 间 存 在 循环 连接 ， 但 读 取 整个 序列 后 产生 单个 输出 的 循环 网 络 ， 如 
图 10.5 所 示 。 


图 10.3 是 非常 具有 代表 性 的 例子 ， 我 们 将 会 在 本 章 大 部 分 涉及 这 个 例子 。 




















图 10.4: 此 类 RNN 的 唯一 循环 是 从 输出 到 隐藏 层 的 反馈 连接 。 在 每 个 时 间 步 上， 输入 为 mw， 隐藏 
层 激活 为 hÀ, 输出 为 o 中 , Aimy y? , WRA LO. (A) 回路 原理 图 。( 右 ) 展开 的 计算 图 。 这样 
的 RNN 没有 图 10.3 表 示 的 RNN 那样 强大 ( 只 能 表示 更 小 的 函数 集合 )。 图 10.3 中 的 RNN 可 以 
选择 将 其 想 要 的 关于 过 去 的 任何 信息 放 入 隐藏 表示 h 中 并 且 将 h 传播 到 未 来 。 该 图 中 的 RNN 被 
训练 为 将 特定 输出 值 放 入 o 中 ,并且 o 是 允许 传播 到 未 来 的 唯一 信息 。 此 处 没有 从 h 前 向 传播 的 
直接 连接 。 之 前 的 h 仪 通过 产生 的 预测 间接 地 连接 到 当前 。o 通常 缺乏 过 去 的 重要 信息 ， 除 非 它 
非常 高 维 且 内 容 丰 富 。 这 使 得 该 图 中 的 RNN 不 那么 强大 , 但 是 它 更 容易 训练 ， 因 为 每 个 时 间 步 可 
以 与 其 他 时 间 步 分 离 训 练 ， 允 许 训 练 期 间 更 多 的 并 行 化 ， 如 第 10.2.1 节 所 述 。 

















































































































任何 图 灵 可 计算 的 也 数 都 可 以 通过 这 样 一 个 有 限 维 的 循环 网 络 计 算 ， 在 这 
个 意义 上 图 10.3 和 式 (10.8) 的 循环 神经 网 络 是 万 能 的 。RNN 经 过 若干 时 间 步 后 读 
取 输 出 ， 这 与 由 图 灵机 所 用 的 时 间 步 是 渐 近 线性 的 ， 与 输入 长 度 也 是 渐 近 线性 
的 (Siegelmann and Sontag, 1991; Siegelmann, 1995; Siegelmann and Sontag, 1995; 
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图 10.5: 关于 时 间 展 开 的 循环 神经 网 络 ， 在 序列 结束 时 具有 单个 输出 。 这 样 的 网 络 可 以 用 于 概括 序 
列 并 产生 用 于 进一步 处 理 的 固定 大 小 的 表示 。 在 结束 处 可 能 存在 目标 ( 如 此 处 所 示 )， 或 者 通过 更 
下 游 模 块 的 反 向 传播 来 获得 输出 oO 上 的 梯度 。 






























































Hyotyniemi, 1996)。 由 图 灵机 计算 的 函数 是 离散 的 ， 所 以 这 些 结果 都 是 函数 的 具体 
实现 ， 而 不 是 近似 。RNN 作为 图 灵机 使 用 时 ， 需 要 一 个 二 进 制 序列 作为 输入 ， 其 输 
出 必须 离散 化 以 提供 二 进 制 输出 。 利 用 单个 有 限 大 小 的 特定 RNN 计算 在 此 设置 下 
的 所 有 函数 是 可 能 的 〈 Siegelmann and Sontag (1995) 用 了 886 个 单元 )。 图 灵机 的 
“输入 ”是 要 计算 函数 的 详细 说 明 (specification)， 所 以 模拟 此 图 灵机 的 相同 网 络 足 
以 应 付 所 有 问题 。 用 于 证 明 的 理论 RNN 可 以 通过 激活 和 权重 ( 由 无 限 精 度 的 有 理 
数 表示 ) 来 模拟 无 限 堆 栈 。 

现在 我 们 研究 图 10.3 中 RNN 的 前 向 传播 公式 。 这 个 图 没有 指定 隐藏 单元 的 激 
活 函 数 。 我 们 假设 使 用 双 曲 正切 激活 函数 。 此 外 ， 图 中 没有 明确 指定 何 种 形式 的 输 
出 和 损失 函数 。 我 们 假定 输出 是 离散 的 ， 如 用 于 预测 词 或 字符 的 RNN。 表 示 离 散 变 
量 的 常规 方式 是 把 输出 o 作为 每 个 离散 变量 可 能 值 的 非 标 准 化 对 数 概 率 。 然 后 ， 我 
们 可 以 应 用 softmax 函数 后 续 处 理 后 ， 获 得 标准 化 后 概率 的 输出 向 量 go RNN 从 特 
定 的 初始 状态 nO 开始 前 向 传播 。 从 t+ = 1 到 上 = r 的 每 个 时 间 步 ， 我 们 应 用 以 下 
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更 新 方程 : 
a) 一 b+ Wn-? 十 Ua ^, (10.8) 
h = tanh(a(?), (10.9) 
o? = c+ VR, (10.10) 
y = softmax(o(?), (10.11) 


其 中 的 参数 的 偏 置 向 量 b 和 c 连同 权重 和 矩阵 U、V 和 环 ， 分 别 对 应 于 输入 到 隐藏 、 
隐藏 到 输出 和 隐藏 到 隐藏 的 连接 。 这 个 循环 网 络 将 一 个 输入 序列 映射 到 相同 长 度 的 
输出 序列 。 与 x 序列 配对 的 y 的 总 损失 就 是 所 有 时 间 步 的 损失 之 和 。 例 如 ， 工 (00 为 
给 定 的 a0,... a0 后 yO 的 负 对 数 似 然 ， 则 


L({a™,..., 2}, {y®,... yY} (10.12) 

= 1 (10.13) 
t 

= — V log pasas Gees) (277, ..., a 9) (10.14) 
t 


其 中 pasan (y? | {a,..., 0 }) 需要 读 取 模型 输出 向 量 Gg qos wor yO 的 项 。 
关于 各 个 参数 计算 这 个 损失 函数 的 梯度 是 计算 成 本 很 高 的 操作 。 梯 度 计算 涉及 执行 
一 次 前 向 传播 〈 如 在 图 10.3 展开 图 中 从 左 到 右 的 传播 )， 接 着 是 由 右 到 左 的 反 向 传 
播 。 运 行 时 间 是 O(7)， 并 且 不 能 通过 并 行 化 来 降低 ， 因 为 前 向 传播 图 是 固有 循序 的 ; 
每 个 时 间 步 只 能 一 前 一 后 地 计算 。 前 向 传播 中 的 各 个 状态 必须 保存 ， 直 到 它们 反问 
传播 中 被 再 次 使 用 ， 因 此 内 存 代价 也 是 O(7)。 应 用 于 展开 图 且 代 价 为 Olr) 的 反 向 
传播 算法 称 为 通过 时 间 反 向 传播 ( back-propagation through time, BPTT )， 将 在 
78 10.2.2 节 进 一 步 讨论 。 因 此 隐藏 单元 之 间 存 在 循环 的 网 络 非常 强大 但 训练 代价 也 
很 大 。 我 们 是 否 有 其 他 选择 呢 ? 





10.2.1 ”导师 驱动 过 程 和 输出 循环 网 络 


仅 在 一 个 时 间 步 的 输出 和 下 一 个 时 间 步 的 隐藏 单元 间 存 在 循环 连接 的 网 络 〈 示 
于 图 10.4 ) 确实 没有 那么 强大 〈 因为 缺乏 隐藏 到 隐藏 的 循环 连接 ) 例如 ， 它 不 能 模 
拟 通用 图 灵机 。 因 为 这 个 网 络 缺 少 隐藏 到 隐藏 的 循环 ， 它 要 求 输出 单元 捕捉 用 于 预 
测 未 来 的 关于 过 去 的 所 有 信息 。 因 为 输出 单元 明确 地 训练 成 匹配 训练 集 的 目标 ， 它 
们 不 太 能 捕获 关于 过 去 输入 历史 的 必要 信息 ， 除 非 用 户 知道 如 何 描述 系统 的 全 部 状 
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态 ， 并 将 它 作 为 训练 日 标的 一 部 分 。 消 除 隐藏 到 隐藏 循环 的 优点 在 于 ， 任 何 基于 比 
较 时 刻 t 的 预测 和 时 刻 t 的 训练 目标 的 损失 函数 中 的 所 有 时 间 步 都 解 看 了 。 因 此 训 
练 可 以 并 行 化 ， 即 在 各 时 刻 t 分 别 计算 梯度 。 因 为 训练 集 提供 输出 的 理想 值 ， 所 以 
没有 必要 先 计 算 前 一 时 刻 的 输出 。 

由 输出 反馈 到 模型 而 产生 循环 连接 的 模型 可 用 导师 驱动 过 程 ( teacher forcing ) 
进行 训练 。 训 练 模型 时 ， 导 师 驱动 过 程 不 再 使 用 最 大 似 然 准 则 ， 而 在 时 刻 t 十 1 接收 
真实 值 y 作为 输入 。 我 们 可 以 通过 检查 两 个 时 间 步 的 序列 得 知 这 一 点 。 条 件 最 大 
似 然 准则 是 








log p(y, y? | a9, 2?) (10.15) 
= log p(y™ | ya, a) + logp(y™ a7, 20). (10.16) 


在 这 个 例子 中 ， 同 时 给 定 迄 今 为 止 的 z 序列 和 来 自 训练 集 的 前 一 y 值 ， 我 们 可 
以 看 到 在 时 刻 t = 2 时 ， 模 型 被 训练 为 最 大 化 yO 的 条 件 概率 。 因 此 最 大 似 然 在 训 
练 时 指定 正确 反馈 ， 而 不 是 将 自己 的 输出 反馈 到 模型 。 如 图 10.6 所 示 。 

我 们 使 用 导师 驱动 过 程 的 最 初 动机 是 为 了 在 缺乏 隐藏 到 隐藏 连接 的 模型 中 避 
免 通 过 时 间 反 向 传播 。 只 要 模型 一 个 时 间 步 的 输出 与 下 一 时 间 步 计算 的 值 存在 连接 ， 
导师 驱动 过 程 仍 然 可 以 应 用 到 这 些 存在 隐藏 到 隐藏 连接 的 模型 。 然 而 ， 只 要 隐藏 单 
元 成 为 较 早 时 间 步 的 函数 ，BPTT 算法 是 必要 的 。 因 此 训练 某 些 模型 时 要 同时 使 
用 导师 驱动 过 程 和 BPTT. 

如 果 之 后 网 络 在 开 环 (open-loop) 模式 下 使 用 ， 即 网 络 输 出 (或 输出 分 布 的 样 
本 ) 反馈 作为 输入 ， 那 么 完全 使 用 导师 驱动 过 程 进行 训练 的 缺点 就 会 出 现 。 在 这 种 
情况 下 ， 训 练 期 间 该 网 络 看 到 的 输入 与 测试 时 看 到 的 会 有 很 大 的 不 同 。 减轻 此 问题 
的 一 种 方法 是 同时 使 用 导师 驱动 过 程 和 自由 运行 的 输入 进行 训练 ， 例 如 在 展开 循环 
的 输出 到 输入 路 径 上 预测 几 个 步骤 的 正确 目标 值 。 通 过 这 种 方式 ， 网 络 可 以 学 会 考 
虑 在 训练 时 没有 接触 到 的 输入 条 件 〈 如 自由 运行 模式 下 ， 自 身 生 成 自身 )， 以 及 将 状 
态 映 射 回 使 网 络 几 步 之 后 生成 正确 输出 的 状态 。 另 外 一 种 方式 (Bengio et al., 2015b) 
是 通过 随意 选择 生成 值 或 真实 的 数据 值 作为 输入 以 减 小 训练 时 和 测试 时 看 到 的 输入 
之 间 的 差别 。 这 种 方法 利用 了 课程 学 习 策 略 ， 逐 步 使 用 更 多 生成 值 作为 输入 。 
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图 10.6: 导师 驱动 过 程 的 示意 图 。 导 师 驱 动 过 程 是 一 种 训练 技术 , 适用 于 输出 与 下 一 时 间 步 的 隐藏 
状态 存在 连接 的 RNN. (A) 训练 时 ,我 们 将 训练 集中 正确 的 输出 yO 反馈 到 ACY. (8) 当 模型 
部 署 后 ， 真 正 的 输出 通常 是 未 知 的 。 在 这 种 情况 下 ， 我 们 用 模型 的 输出 oC 近似 正确 的 输出 yO , 
反馈 回 模型 。 







































































10.2.2 ”计算 循环 神经 网 络 的 梯度 


计算 循环 神经 网 络 的 梯度 是 容易 的 。 我 们 可 以 简单 地 将 第 6.5.6 节 中 的 推广 反 向 
传播 算法 应 用 于 展开 的 计算 图 ， 而 不 需要 特殊 化 的 算法 。 由 反 向 传播 计算 得 到 的 梯 
度 ， 并 结合 任何 通用 的 基于 梯度 的 技术 就 可 以 训练 RNN。 

为 了 获得 BPTT 算法 行为 的 一 些 直观 理解 , 我 们 举例 说 明 如 何 通过 BPTT 计算 
上 述 RNN 公 式 〈 式 (10.8) 和 式 (10.12) ) 的 梯度 。 计 算 图 的 节点 包括 参数 U, V, W, b 
和 ec， 以 及 以 二 为 索引 的 节点 序列 sO, hO, of 和 LW。 对 于 每 一 个 节点 N， 我 们 
需要 基于 N 后 面 的 节点 的 梯度 , 递归 地 计算 梯度 VnL。 我 们 从 紧 接 着 最 终 损失 的 节 
点 开始 递归 : 

aL 
ara ~ 


在 这 个 导数 中 ， 我 们 假设 输出 o0 作为 softmax 函数 的 参数 ， 我 们 可 以 从 softmax 


(10.17) 
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函数 可 以 获得 关于 输出 概率 的 向 量 go 我 们 也 假设 损失 是 迄今 为 止 给 定 了 输入 后 的 
真实 目标 y” 的 负 对 数 似 然 。 对 于 所 有 it, ATE t 输出 的 梯度 Vow DL 如 下 : 





OL OL OL r 


(Vow L)i = PRO = JLO 8o Yi Fay: 


(10.18) 


我 们 从 序列 的 末尾 开始 ， 反 向 进行 计算 。 在 最 后 的 时 间 步 r, n 只 有 o0 作为 后 续 
节点 ， 因 此 这 个 梯度 很 简单 : 


Vio L= V VoL. (10.19) 


然后 ， 我 们 可 以 从 时 刻 上 = 一 1 到 += 1 EIE RS, 通过 时 间 反 向 传播 梯度 ， 注 意 
h(t < 7) 同时 具有 o 和 AO 两 个 后 续 节点 。 因 此 ， 它 的 梯度 由 下 式 计算 


ghe NT do NT 
VoL E rcp, (Vren L) + Go (V a L) (10.20) 
= W7 (Vern Ldiag(1 " (nit?) EF C ud (10.21) 





其 中 diag(1— (n^*?)?) 表示 包含 元 素 1— (hf)? 的 对 角 矩 阵 。 这 是 关于 时 刻 t+1 
与 隐藏 单元 ?关联 的 双 曲 正切 的 Jacobian。 

旦 获得 了 计算 图 内 部 节点 的 梯度 ， 我 们 就 可 以 得 到 关于 参数 节点 的 梯度 。 因 
为 参数 在 许多 时 间 步 共享 ， 我 们 必须 在 表示 这 些 变量 的 微 积分 操作 时 姬 慎 对 待 。 我 
们 希望 实现 的 等 式 使 用 第 6.5.6 节 中 的 bprop 方法 计算 计算 图 中 单一 边 对 梯度 的 贡 
献 。 然 而 微 积分 中 的 Vwf 算 子 , 计算 三 对 于 f. 的 贡献 时 将 计算 图 中 的 所 有 边 都 考 
虑 进去 了 。 为 了 消除 这 种 歧义 ， 我 们 定义 只 在 t 时 刻 使 用 的 虚拟 变量 WO 作为 Ww 
的 副本 。 然 后 ， 我 们 可 以 使 用 Vwo 表示 权重 在 时 间 步 t 对 梯度 的 贡献 。 
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使 用 这 个 表示 ， 关 于 剩 下 参数 的 梯度 可 以 由 下 式 给 出 : 











OT 
V.L = 2 (2 ) yap D Vw L, (10.22) 
ant . 
Vel = 2 (Sa) Viob = > degll - (nO) Vro L, (10.23) 
VyL = 2 2 (ao) ve = 2 VaL)? (10.24) 
aL a" 
Mie ane (10.25) 
= -ae 人- 7 0) (Vico Dn hD", (10.26) 
Vole xx ag) (10.27) 
- -nel = O5 (Vico ta”, (10.28) 
因为 计算 图 中 定义 的 损失 的 任何 参数 都 不 是 训练 数据 zt 的 父 节 点 ， 所 以 我 们 不 需 
要 计算 关于 它 的 梯度 。 


10.2.3 ”作为 有 向 图 模型 的 循环 网 络 


目前 为 止 ， 我 们 接触 的 循环 网 络 例子 中 损失 LO 是 训练 目标 yO 和 输出 o 之 
[RI EA] s SUAE. 与 前 馈 网 络 类 似 ， 原 则 上 循环 网 络 几 乎 可 以 使 用 任何 损失 。 但 必须 根 
据 任 务 来 选择 损失 。 如 前 馈 网 络 ， 我们 通常 希望 将 RNN 的 输出 解释 为 一 个 概率 分 
H, 并 且 我 们 通常 使 用 与 分 布 相关 联 的 交叉 炉 来 定义 损失 。 均 方 误 差 是 与 单位 高 斯 
分 布 的 输出 相关 联 的 交叉 焙 损 失 ， 例 如 前 馈 网 络 中 所 使 用 的 。 

当 我 们 使 用 一 个 预测 性 对 数 似 然 的 训练 目标 ， 如 式 (10.12) ， 我 们 将 RNN 训练 
为 能 够 根据 之 前 的 输入 估计 下 一 个 序列 元 素 yO 的 条 件 分 布 。 这 可 能 意味 着 ,我 们 














最 大 化 对 数 似 然 
log p(y | a,..., a), (10.29) 
或 者 ， 如 果 模 型 包括 来 自 一 个 时 间 步 的 输出 到 下 一 个 时 间 步 的 连接 ， 
logp(y(? | a9, ... , 2, y®,..., t7 V), (10.30) 
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将 整个 序列 y 的 联合 分 布 分 解 为 一 系列 单 步 的 概率 预测 是 捕获 关于 整个 序列 完整 
联合 分 布 的 一 种 方法 。 当 我 们 不 把 过 去 的 y 值 反馈 给 下 一 步 作 为 预测 的 条 件 时 ， 那 
么 有 向 图 模型 不 包含 任何 从 过 去 yO 到 当前 yO 的 边 。 在 这 种 情况 下 ， 输 出 y 与 给 
定 的 x 序列 是 条 件 独立 的 。 当 我 们 反馈 真实 的 y 值 ( 不 是 它们 的 预测 值 ， 而 是 真正 
观测 到 或 生成 的 值 ) 给 网 络 时 ， 那 么 有 向 图 模型 包含 所 有 从 过 去 yO 到 当前 yO 的 


边 。 





图 10.7: 序列 yD) yy... 的 全 连接 图 模型 。 给 定 先前 的 值 ， 每 个 过 去 的 观察 值 yO 可 
以 影响 一 些 y(t > i) 的 条 件 分 布 。 当 序列 中 每 个 元 素 的 输入 和 参数 的 数目 越 来 越 多 ， 根 据 此 图 
直接 参数 化 图 模型 ( 如 式 (10.6) 中 ) 可 能 是 非常 低 效 的 。RNN 可 以 通过 高 效 的 参数 化 获得 相同 的 
全 连接 ， 如 图 10.8 所 示 。 


























举 一 个 简单 的 例子 ， 让 我 们 考虑 对 标量 随机 变量 序列 Y = {y 中 ,...,y 中 } 建 
模 的 RNN， 也 没有 额外 的 输入 x。 在 时 间 步 t 的 输入 仅仅 是 时 间 步 + 一 1 的 输出 。 
该 RNN 定义 了 关于 y 变量 的 有 向 图 模型 。 我 们 使 用 链 式 法 则 ( 用 于 条 件 概率 的 
at (3.6) ) 参数 化 这 些 观察 值 的 联合 分 布 : 








P(Y) 2 P(y5,...,y(0) = [| 26" | yf) yO) ,, , y (0), (10.31) 
t=1 
其 中 当 t= 1 时 坚 杠 右 侧 显 然 为 空 。 因此 , 根据 这 样 一 个 模型 , 一 组 值 Ly, 2. yO} 
的 负 对 数 似 然 为 
hey nu (10.32) 
t 
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其 中 

LP == log Py = y@ [309 40,00). (10.33) 
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图 10.8: Æ RNN 图 模型 中 引入 状态 变量 ， 尽 管 它 是 输入 的 确定 性 函数 ,但 它 有 助 于 我 们 根据 


式 (10.5) 获得 非常 高 效 的 参数 化 。 序 列 中 的 每 个 阶段 (对 于 nO 和 y ) 使 用 相同 的 结构 ( 每 个 
节点 具有 相同 数量 的 输入 )， 并 且 可 以 与 其 他 阶段 共享 相同 的 参数 。 


























图 模型 中 的 边 表 示 哪 些 变量 直接 依赖 于 其 他 变量 。 许 多 图 模型 的 目标 是 省 略 不 
存在 强 相互 作用 的 边 以 实现 统计 和 计算 的 效率 。 例 如 ， 我 们 通常 可 以 作 Markov 假 设 ， 
即 图 模型 应 该 只 包含 从 (y 79, yD} 39] yO 的 边 ， 而 不 是 包含 整个 过 去 历史 
的 边 。 然 而 ， 在 一 些 情况 下 ， 我 们 认为 整个 过 去 的 输入 会 对 序列 的 下 一 个 元 素 有 一 
定 影响 。 当 我 们 认为 yO 的 分 布 可 能 取决 于 遥远 过 去 (在 某 种 程度 ) 的 y O 的 值 ， 且 
无 法 通过 y(4-0 捕获 yO 的 影响 时 ，RNN 将 会 很 有 用 。 

解释 RNN 作为 图 模型 的 一 种 方法 是 将 RNN 视 为 定义 一 个 结构 为 完全 图 的 图 模 
型 ， 且 能 够 表示 任何 一 对 y 值 之 间 的 直接 联系 。 图 10.7 是 关于 y 值 且 具有 完全 图 结 
构 的 图 模型 。 该 RNN 完全 图 的 解释 基于 排除 并 忽略 模型 中 的 隐藏 单元 n? 

更 有 趣 的 是 ， 将 隐藏 单 元 nO 视 为 随机 变量 ， 从 而 产生 RNN 的 图 模型 结构 1。 
在 图 模型 中 包括 隐藏 单元 预示 RNN 能 对 观测 的 联合 分 布 提供 非常 有 效 的 参数 化 。 
假设 我 们 用 表格 表示 法 来 表示 离散 值 上 任意 的 联合 分 布 ， 即 对 每 个 值 可 能 的 赋值 分 
配 一 个 单独 条 目的 数组 ， 该 条 目 表 示 发 生 该 赋值 的 概率 。 如 果 y ATR k 个 不 同 的 
值 ， 表 格 表示 法 将 有 O(k7) 个 参数 。 对 比 RNN， 由 于 参数 共享 ，RNN 的 参数 数目 
为 O(1) 且 是 序列 长 度 的 函数 。 我 们 可 以 调节 RNN 的 参数 数量 来 控制 模型 容量 ,但 
不 用 被 迫 与 序列 长 度 成 比例 。 式 (10.5) 展示 了 所 述 RNN 通过 循环 应 用 相同 的 函数 f 
以 及 在 每 个 时 间 步 的 相同 参数 6， 有 效 地 参数 化 的 变量 之 间 的 长 期 联系 。 图 10.8 说 


“给 定 这 些 变量 的 父 变 量 ， 其 条 件 分 布 是 确定 性 的 。 尽 管 设计 具有 这 样 确定 性 的 隐藏 单元 的 图 模型 是 很 少见 的 ， 但 
这 是 完全 合理 的 。 
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明了 这 个 图 模型 的 解释 。 在 图 模型 中 结合 n? 节点 可 以 用 作 过 去 和 未 来 之 间 的 中 间 
量 ， 从 而 将 它们 解 耦 。 遥 远 过 去 的 变量 yO 可 以 通过 其 对 h 的 影响 来 影响 变量 y. 
该 图 的 结构 表明 可 以 在 时 间 步 使 用 相同 的 条 件 概 率 分 布 有 效 地 参数 化 模型 ， 并 且 当 
观察 到 全 部 变量 时 ， 可 以 高 效 地 评估 联合 分 配给 所 有 变量 的 概率 。 

即便 使 用 高 效 参 数 化 的 图 模型 ， 某 些 操作 在 计算 上 仍然 具有 挑战 性 。 例 如 ， 难 
以 预测 序列 中 缺少 的 值 。 

循环 网 络 为 减少 的 参数 数目 付出 的 代价 是 优化 参数 可 能 变 得 困难 。 

在 循环 网 络 中 使 用 的 参数 共享 的 前 提 是 相同 参数 可 用 于 不 同时 间 步 的 假设 。 也 
就 是 说 ， 假 设 给 定时 刻 t 的 变量 后 ， 时 刻 t 十 1 变量 的 条 件 概率 分 布 是 平稳 的 
(stationary )， 这 意味 着 之 前 的 时 间 步 与 下 个 时 间 步 之 间 的 关系 并 不 依赖 于 t。 原 则 
上 ， 可 以 使 用 上 作为 每 个 时 间 步 的 额外 输入 ， 并 让 学 习 器 在 发 现任 何 时 间 依 赖 性 的 
同时 ， 在 不 同时 间 步 之 间 尽 可 能 多 地 共享 。 相 比 在 每 个 t 使 用 不 同 的 条 件 概率 分 布 
已 经 好 很 多 了 ， 但 网 络 将 必须 在 面 对 新 上 时 进行 推断 。 

为 了 完整 描述 将 RNN 作为 图 模型 的 观点 ,我 们 必须 描述 如 何 从 模型 采样 。 我 们 
需要 执行 的 主要 操作 是 简单 地 从 每 一 时 间 步 的 条 件 分 布 采样 。 然 而 ， 这 会 导致 额外 
的 复杂 性 。RNN 必须 有 某 种 机 制 来 确定 序列 的 长 度 。 这 可 以 通过 多 种 方式 实现 。 

在 当 输 出 是 从 词汇 表 获 取 的 符号 的 情况 下 ， 我 们 可 以 添加 一 个 对 应 于 序列 末端 
的 特殊 符号 (Schmidhuber, 2012)。 当 产生 该 符号 时 ,采样 过 程 停止 。 在 训练 集中 ， 
我 们 将 该 符号 作为 序列 的 一 个 额外 成 员 ， 即 紧 跟 每 个 训练 样本 xz" 之 后 。 

另 一 种 选择 是 在 模型 中 引入 一 个 额外 的 Bernoulli 输出 ， 表 示 在 每 个 时 间 步 决定 
继续 生成 或 停止 生成 。 相 比 向 词汇 表 增 加 一 个 额外 符号 ， 这 种 方法 更 普遍 ， 因 为 它 
适用 于 任何 RNN， 而 不 仅仅 是 输出 符号 序列 的 RNN。 例 如 ， 它 可 以 应 用 于 一 个 产 
生 实数 序列 的 RNN。 新 的 输出 单元 通常 使 用 sigmoid 单元 ， 并 通过 交叉 炉 训练 。 在 
这 种 方法 中 ，sigmoid 被 训练 为 最 大 化 正确 预测 的 对 数 似 然 ， 即 在 每 个 时 间 步 序列 决 

确定 序列 长 度 r 的 另 一 种 方法 是 将 一 个 额外 的 输出 添加 到 模型 并 预测 整数 7 本 
身 。 模 型 可 以 采 出 7 的 值 ， 然 后 采 7 步 有 价值 的 数据 。 这 种 方法 需要 在 每 个 时 间 
步 的 循环 更 新 中 增加 一 个 额外 输入 ， 使 得 循环 更 新 知道 它 是 否 是 靠近 所 产生 序列 的 
末尾 。 这 种 额外 的 输入 可 以 是 7 的 值 ， 也 可 以 是 7+ 一 t 即 剩 下 时 间 步 的 数量 。 如 果 
没有 这 个 额外 的 输入 ，RNN 可 能 会 产生 突然 结束 序列 ， 如 一 个 句子 在 最 终 完 整 前 结 
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束 。 此 方法 基于 分 解 
Pla pa | (10.34) 


直接 预测 r 的 例子 见 Goodfellow et al. (2014d)。 


10.2.4 基于 上 下 文 的 RNN 序列 建 模 


上 一 节 描 述 了 没有 输入 x 时 ， 关 于 随机 变量 序列 y(? 的 RNN 如 何 对 应 于 有 向 图 
模型 。 当 然 ， 如 式 (10.8) 所 示 的 RNN 包 含 一 个 输入 序列 a), a9, ... 07, 一 般 情况 
F, RNN 允许 将 图 模型 的 观点 扩展 到 不 仅 代表 y 变量 的 联合 分 布 也 能 表示 给 定 z 
后 y 条 件 分 布 。 如 在 第 6.2.1.1 节 的 前 馈 网 络 情形 中 所 讨论 的 , 任何 代表 变量 P(y; 0) 
的 模型 都 能 被 解释 为 代表 条 件 分 布 P(y | w) 的 模型 ， 其 中 w = 9。 我 们 能 像 之 前 一 
样 使 用 P(y | w) 代表 分 布 P(y | 四 来 扩展 这 样 的 模型 ,但 要 令 w 是 关于 z 的 函数 。 
在 RNN 的 情况 , 这 可 以 通过 不 同 的 方式 来 实现 。 此 人 处, 我 们 回顾 最 常见 和 最 明显 的 
选择 。 

之 前 ,我 们 已 经 讨论 了 将 t=1,...,7 的 向 量 a? 序列 作为 输入 的 RNN。 男 一 
种 选择 是 只 使 用 单个 向 量 m 作为 输入 。 当 ae 是 一 个 固定 大 小 的 向 量 时 ， 我 们 可 以 简 
单 地 将 其 看 作 产生 y 序列 RNN 的 额外 输入 。 将 额外 输入 提供 到 RNN 的 一 些 常见 
方法 是 : 


1. 在 每 个 时 刻 作为 一 个 额外 输入 ,或 
2. 作为 初始 状态 nO, By 
3. 结合 两 种 方式 。 





第 一 个 也 是 最 常用 的 方法 如 图 10.9 所 示 。 输 入 ae 和 每 个 隐藏 单元 向 量 AO 之 间 
的 相互 作用 是 通过 新 引入 的 权重 矩阵 BR 参数 化 的 ， 这 是 只 包含 y 序列 的 模型 所 没有 
的 。 同 样 的 乘积 x' R 在 每 个 时 间 步 作为 隐藏 单元 的 一 个 额外 输入 。 我 们 可 以 认为 x 
的 选择 (确定 z' RR 值 )， 是 有 效 地 用 于 每 个 隐藏 单元 的 一 个 新 偏 置 参 数 。 权 重 与 输 
入 保持 独立 。 我 们 可 以 认为 这 种 模型 采用 了 非 条 件 模型 的 92， 并 将 w 代入 9， 其 中 
w 内 的 偏 置 参数 现在 是 输入 的 函数 。 

RNN 可 以 接收 向 量 序列 O 作为 输入 ， 而 不 是 仅 接收 单个 向 量 m 作为 输入 。 
式 (10.8) 描述 的 RNN 对 应 条 件 分 布 P(y O,..., yO | a9,...,a67), FRE AP 
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图 10.9: 将 固定 长 度 的 向 量 z 映射 到 序列 Y EN RNN。 这 类 RNN 适用 于 很 多 任务 如 图 注 ， 
其 中 单个 图 像 作为 模型 的 输入 ， 然 后 产生 描述 图 像 的 词 序列 。 观 察 到 的 输出 序列 的 每 个 元 素 yO? 
同时 用 作 输 入 〈 对 于 当前 时 间 步 ) 和 训练 期 间 的 目标 (对 于 前 一 时 间 步 )。 












































的 假设 下 这 个 分 布 分 解 为 
] P9 T 26,..., 29). (10.35) 


为 去 掉 条 件 独立 的 假设 ,我 们 可 以 在 时 刻 t 的 输出 到 时 刻 上 + 1 的 隐藏 单元 添加 连 
接 ， 如 图 10.10 所 示 。 该 模型 就 可 以 代表 关于 y 序列 的 任意 概率 分 布 。 这 种 给 定 一 个 
序列 表示 男 一 个 序列 分 布 的 模型 的 还 是 有 一 个 限制 ， 就 是 这 两 个 序列 的 长 度 必须 是 
相同 的 。 我 们 将 在 第 10.4 节 描述 如 何 消除 这 种 限制 
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图 10.10: 将 可 变 长 度 的 z 值 序列 映射 到 相同 长 度 的 _y 值 序列 上 分 布 的 条 件 循环 神经 网 络 。 对 比 
图 10.3， 此 RNN 包含 从 前 一 个 输出 到 当前 状态 的 连接 。 这 些 连接 允许 此 RNN 对 给 定 z 的 序列 后 
相同 长 度 的 y 序列 上 的 任意 分 布 建 模 。 图 10.3 的 RNN 仅 能 表示 在 给 定 c 值 的 情况 下 ，y 值 彼此 
条 件 独立 的 分 布 。 











10.3 双向 RNN 


目前 为 止 我 们 考虑 的 所 有 循环 神经 网 络 有 一 个 “因果 ”结构 ,意味 着 在 时 刻 t 的 
状态 只 能 从 过 去 的 序列 cD, et) 以 及 当前 的 输入 aO 捕获 信息 。 我 们 还 讨论 
了 某 些 在 y 可 用 时 ， 人 允许 过 去 的 y 值 信息 影响 当前 状态 的 模型 。 

然而 ， 在 许多 应 用 中 ,我们 要 输出 的 Yi9 的 预测 可 能 依赖 于 整个 输入 序列 。 例 
如 ， 在 语音 识别 中 ,， 由 于 协同 发 音 ， 当 前 声音 作为 音素 的 正确 解释 可 能 取决 于 未 来 
几 个 音素 ， 甚 至 潜在 的 可 能 取决 于 未 来 的 几 个 词 ， 因 为 词 与 附近 的 词 之 间 的 存在 语 
义 依赖 如果 当 前 的 词 有 两 种 声学 上 合理 的 解释 ， 我 们 可 能 要 在 更 远 的 未 来 (和 过 
去 ) 寻找 信息 区 分 它们 。 这 在 手写 识别 和 许多 其 他 序列 到 序列 学 习 的 任务 中 也 是 如 
此 ， 将 会 在 下 一 节 中 描述 。 

双向 循环 神经 网 络 (或 双向 RNN ) 为 满足 这 种 需要 而 被 发 明 (Schuster and 
Paliwal, 1997)。 他 们 在 需要 双向 信息 的 应 用 中 非常 成 功 (Graves, 2012)， 如 手写 
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识别 (Graves et al., 2008; Graves and Schmidhuber, 2009), 语音 识别 (Graves and 
Schmidhuber, 2005; Graves et al., 2013) 以 及 生物 信息 学 (Baldi et al., 1999). 


顾名思义 ,双向 RNN 结合 时 间 上 从 序列 起 点 开始 移动 的 RNN 和 男 一 个 时 间 上 
从 序列 末尾 开始 移动 的 RNN。 图 10.11 展示 了 典型 的 双向 RNN, 其 中 AO 代表 通过 
时 间 向 前 移动 的 子 RNN 的 状态 ，g 代表 通过 时 间 向 后 移动 的 子 RNN 的 状态 。 这 
允许 输出 单元 o 能 够 计算 同时 依赖 于 过 去 和 未 来 且 对 时 刻 t 的 输入 值 最 敏感 的 表 
示 ， 而 不 必 指 定 t 周围 固定 大 小 的 窗口 ( 这 是 前 馈 网 络 、 卷 积 网 络 或 具有 固定 大 小 
的 先行 缓存 器 的 常规 RNN 所 必须 要 做 的 )。 











图 10.11: 典型 的 双向 循环 神经 网 络 中 的 计算 ， 意 图 学 习 将 输入 序列 z 映射 到 目标 序列 y (在 每 个 
步骤 t 具有 损失 LO )。 循 环 性 h 在 时 间 上 向 前 传播 信息 ( 向 右 )， 而 循环 性 g 在 时 间 上 向 后 传播 
信息 (向 左 )。 因 此 在 每 个 点 +， 输 出 单元 o? 可 以 受益 于 输入 hO 中 关于 过 去 的 相关 概要 以 及 输 
入 gË 中 关于 未 来 的 相关 概要 。 




















这 个 想法 可 以 自然 地 扩展 到 2 维 输入 ， 如 图 像 ， 由 四 个 RNN 组 成 ， 每 一 个 沿 
着 四 个 方向 中 的 一 个 计算 : 上 、 下 、 左 、 右 。 如 果 RNN 能 够 学 习 到 承载 长 期 信息 ， 
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那 在 2 维 网 格 每 个 点 (i, 7 的 输出 Oig 就 能 计算 一 个 能 捕捉 到 大 多 局 部 信息 但 仍 依 
赖 于 长 期 输入 的 表示 。 相 比 卷 积 网 络 ， 应 用 于 图 像 的 RNN 计算 成 本 通常 更 高 , 但 允 
许 同一 特征 图 的 特征 之 间 存 在 长 期 横向 的 相互 作用 (Visin et al., 2015; Kalchbrenner 
et al., 2015)。 实 际 上 ， 对 于 这 样 的 RNN， 前 向 传播 公式 可 以 写成 表示 使 用 卷 积 的 
形式 ,计算 自 底 向 上 到 每 一 层 的 输入 (在 整合 横向 相互 作用 的 特征 图 的 循环 传播 之 
前 )。 


10.4 ”基于 编码 -解码 的 序列 到 序列 架构 


我 们 已 经 在 图 10.5 看 到 RNN 如 何 将 输入 序列 映射 成 固定 大 小 的 向 量 ， 在 
图 10.9 中 看 到 RNN 如 何 将 固定 大 小 的 向 量 映 射 成 一 个 序列 ， 在 图 10.3 、 图 10.4 、 
图 10.10 和 图 10.11 中 看 到 RNN 如 何 将 一 个 输入 序列 映射 到 等 长 的 输出 序列 。 


本 市 我 们 讨论 如 何 训练 RNN， 使 其 将 输入 序列 映射 到 不 一 定 等 长 的 输出 序列 。 
这 在 许多 场景 中 都 有 应 用 ， 如 请 音 识别 、 机 带 翻 译 或 问答 ， 其 中 训练 集 的 输入 和 输 
出 序列 的 长 度 通常 不 相同 〈 虽然 它们 的 长 度 可 能 相关 )。 


我 们 经 常 将 RNN 的 输入 称 为 “上 下 文 ”。 J C。 
个 上 下 文 C 可 能 是 一 个 概括 输入 序列 X = (at n2)) 的 向 量 或 者 向 量 序 ol, 


用 于 映射 可 变 长 度 序 列 到 另 一 可 变 长 度 序列 最 简单 的 RNN 架 构 最 初 由 Cho 
et al. (2014a) 提出 ， 之 后 不 久 由 Sutskever et al. (2014) 独立 开发 ， 并 且 第 一 个 使 
用 这 种 方法 获得 翻译 的 最 好 结果 。 前 一 系统 是 对 另 一 个 机 器 翻译 系统 产生 的 建 
议 进 行 评分 ， € o aiia 这 些 作者 分 别 将 该 架构 称 
为 编码 -解码 或 序列 到 序列 架构 ， 如 图 10.12 所 示 。 这 个 想法 非常 简单 : (1) 编码 
器 (encoder) 或 读 取 器 (reader) 或 输入 (input) RNN 处 理 输入 序列 。 编 码 器 输出 
EFX C (通常 是 最 终 隐 藏 状态 的 简单 函数 )。(2) 解码 器 (decoder) 或 写 入 器 
(writer) 或 输出 (output) RNN 则 以 固定 长 度 的 向 量 (如 图 10.9 ) 为 条 件 产 生 输 出 
序列 Y= (yD,.…. ,YW)。 这 种 架构 对 比 本 章 前 几 节 提出 的 架构 的 创新 之 处 在 于 长 
度 nz HI ny 可 以 彼此 不 同 ， 而 之 前 的 架构 约束 n, = ny = 7。 在 序列 到 序列 的 架构 
中 ， 两 个 RNN 共同 训练 以 最 大 化 log P(y,..., y? | a,.. a) ET MER 
中 所 有 zx 和 y 对 的 平均 )。 编 码 器 RNN 的 最 后 一 个 状态 通常 被 当 作 输 入 的 表 
zm C 并 作为 解码 器 RNN 的 输入 。 


如 果 上 下 文 C 是 一 个 向 量 ， 则 编码 器 RNN 只 是 在 第 10.2.4 节 描述 的 向 量 到 序 
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Encoder 


COR CC ) 
ORO 





图 10.12: 在 给 定 输 入 序列 (xD x O,.. x00) 的 情况 下 学 习 生 成 输出 序列 (yD yO. yr) 
的 编码 需 - 解 码 需 或 序列 到 序列 的 RNN 架构 的 示例 。 它 由 读 取 输入 序列 的 编码 器 RNN 以 及 生成 
输出 序列 〈 或 计算 给 定 输出 序列 的 概率 ) 的 解码 器 RNN 组 成 。 编 码 器 RNN 的 最 终 隐 藏 状态 用 于 
计算 一 般 为 固定 大 小 的 上 下 文 变量 C, C 表示 输入 序列 的 语义 概要 并 且 作为 解码 器 RNN 的 输入 。 


























列 RNN。 正 如 我 们 所 见 ， 向 量 到 序列 RNN 至 少 有 两 种 接受 输入 的 方法 。 输 入 可 以 
被 提供 为 RNN 的 初始 状态 ， 或 连接 到 每 个 时 间 步 中 的 隐藏 单元 。 这 两 种 方式 也 可 以 


d 
结合 。 


这 里 并 不 强制 要 求 编码 器 与 解码 器 的 隐藏 层 具有 相同 的 大 小 。 

此 架构 的 一 个 明显 不 足 是 ， 编 码 器 RNN 输出 的 上 下 文 C 的 维度 太 小 而 难以 适 
当地 概括 一 个 长 序列 。 这 种 现象 由 Bahdanau et al. (2015) 在 机 器 翻译 中 观察 到 。 他 
们 提出 让 C 成 为 可 变 长 度 的 序列 ， 而 不 是 一 个 固定 大 小 的 向 量 。 此 外 ， 他 们 还 引入 
了 将 序列 C 的 元 素 和 输出 序列 的 元 素 相 关联 的 注意 力 机 制 (attention mechanism )。 
读者 可 在 第 12.4.5.1 节 了 解 更 多 细节 。 
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10.5 深度 循环 网 络 


大 多 数 RNN 中 的 计算 可 以 分 解 成 三 块 参数 及 其 相关 的 变换 : 





1. 从 输入 到 隐藏 状态 ， 
2. 从 前 一 隐藏 状态 到 下 一 隐藏 状态 ， 以 及 
3. 从 隐藏 状态 到 输出 。 


根据 图 10.3 中 的 RNN 架构 ,这 三 个 块 都 与 单个 权重 矩阵 相关 联 。 换 句 话 说， 当 网 络 
被 展开 时 ,每 个 块 对 应 一 个 浅 的 变换 。 能 通过 深度 MLP 内 单个 层 来 表示 的 变换 称 为 
浅 变换 。 通 常 ， 这 是 由 学 成 的 仿 射 变换 和 一 个 固定 非 线性 表示 组 成 的 变换 。 

在 这 些 操 作 中 引入 深度 会 有 利 的 吗 ? 实验 证 据 (Graves, 2013; Pascanu et al., 
2014a) 强烈 瞳 示 理应 如 此 。 实 验证 据 与 我 们 需要 足够 的 深度 以 执行 所 需 映 射 的 想 
法 一 致 。 读 者 可 以 参考 Schmidhuber (1996); El Hihi and Bengio (1996) 或 Jaeger 
(2007a) 了 解 更 早 的 关于 深度 RNN 的 研究 。 

Graves (2013) 第 一 个 展示 了 将 RNN 的 状态 分 为 多 层 的 显著 好 人 处， 如 
图 10.13 (A). 我 们 可 以 认为 , 在 图 10.13 (a) 所 示 层 次 结构 中 较 低 的 层 起 到 了 将 原始 
输入 转化 为 对 更 高 层 的 隐藏 状态 更 合适 表示 的 作用 。Pascanu et al. (2014a) 更 进一步 
提出 在 上 述 三 个 块 中 各 使 用 一 个 单独 的 MLP (可 能 是 深度 的 )， 如 图 10.13 (b) 所 示 。 
考虑 表示 容量 ， 我 们 建议 在 这 三 个 步 中 都 分 配 足 够 的 容量 ， 但 增加 深度 可 能 会 因为 
优化 困难 而 损害 学 习 效果 。 在 一 般 情 况 下 , 更 容易 优化 较 浅 的 架构 ,加 入 图 10.13 (b) 
的 额外 深度 导致 从 时 间 步 二 的 变量 到 时 间 步 二 + 1 的 最 短路 径 变 得 更 长 。 例 如 ， 如 果 
有 具有 单个 隐藏 层 的 MLP 被 用 于 状态 到 状态 的 转换 ， 那 么 与 图 10.3 相 比 ， 我 们 就 会 
加 倍 任何 两 个 不 同时 间 步 变量 之 间 最 短路 径 的 长 度 。 然 而 Pascanu et al. (2014a) 认 
为 ， 在 隐藏 到 隐藏 的 路 径 中 引入 跳跃 连接 可 以 缓和 这 个 问题 ， 如 图 10.13 (c) 所 示 。 
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(b) (c) 








图 10.13: 循环 神经 网 络 可 以 通过 许多 方式 变 得 更 深 (Pascanu et aL, 2014a). (a) 隐藏 循环 状态 可 
以 被 分 解 为 具有 层次 的 组 。(b) 可 以 向 输入 到 隐藏 ， 隐 藏 到 隐藏 以 及 隐藏 到 输出 的 部 分 引入 更 深 的 
计算 (如 MLP)。 这 可 以 延长 链接 不 同时 间 步 的 最 短路 径 。(c) 可 以 引入 跳跃 连接 来 缓解 路 径 延长 
的 效应 。 



































10.6” 递 归 神 经 网 络 


递归 神经 网 络 ? 代 表 循 环 网 络 的 另 一 个 扩展 ， 它 被 构造 为 深 的 树 状 结构 而 不 
是 RNN 的 链 状 结构 , 因此 是 不 同类 型 的 计算 图 .递归 网 络 的 典型 计算 图 如 图 10.14 所 
示 。 递 归 神 经 网 络 由 Pollack (1990) 引入 ,而 Bottou (2011) 描述 了 这 类 网 络 的 潜在 
用 途 一 一 学 习 推 论 。 递 归 网 络 已 成 功 地 应 用 于 输入 是 数据 结构 的 神经 网 络 (Frasconi 
et al., 1997, 1998)， 如 自然 语言 处 理 (Socher et al., 2011a,c, 2013a) 和 计算 机 视觉 
(Socher et al., 2011b)。 

递归 网 络 的 一 个 明显 优势 是 ， 对 于 具有 相同 长 度 r 的 序列 ， 深 度 (通过 非 线性 
操作 的 组 合 数量 来 衡量 ) 可 以 急剧 地 从 r 减 小 为 O(logr)， 这 可 能 有 助 于 解决 长 期 


?我 们 建议 不 要 将 “递归 神经 网 络 ”缩写 为 “RNN”， 以 免 与 “循环 神经 网 络 ” 混 消 。 
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依赖 。 一 个 其 而 未 决 的 问题 是 如 何以 最 佳 的 方式 构造 树 。 一 种 选择 是 使 用 不 依赖 于 
数据 的 树 结 构 ， 如 平衡 二 又 树 。 在 某 些 应 用 领域 , 外 部 方法 可 以 为 选择 适当 的 树 结 构 
提供 借鉴 。 例 如 ， 处 理 自 然 语言 的 句子 时 ， 用 于 递归 网 络 的 树 结构 可 以 被 固定 为 句 
子 语法 分 析 树 的 结构 ( 可 以 由 自然 语言 语法 分 析 程 序 提供 ) (Socher et al., 2011a,c). 
理想 的 情况 下 ， 人 们 和 硕 望 学 习 器 自行 发 现 和 推断 适合 于 任意 给 定 输入 的 树 结构 ， 如 
(Bottou, 2011) 所 建议 。 





OOOO 


图 10.14: 递归 网 络 将 循环 网 络 的 链 状 计算 图 推广 到 树 状 计算 图 .可 变 大 小 的 序列 a9, 2), ao) 
可 以 通过 固定 的 参数 集合 (权重 矩阵 U, V, w) 映射 到 固定 大 小 的 表示 (输出 o )。 该 图 展示 了 监 
督学 习 的 情况 ， 其 中 提供 了 一 些 与 整个 序列 相关 的 目标 y。 



































递归 网 络 想法 的 变种 存在 很 多 。 例 如 ，Frasconi et al. (1997) 和 Frasconi et al. 
(1998) 将 数据 与 树 结构 相 关联 ， 并 将 输入 和 目标 与 树 的 单独 节点 相关 联 。 由 每 个 节 
点 执行 的 计算 无 须 是 传统 的 人 工 神 经 计算 (所 有 输入 的 仿 身 变换 后 跟 一 个 单 洞 非 线 
性 )。 例 如 ，Socher et al. (2013a) 提出 用 张 量 运算 和 双 线 性 形式 ， 在 这 之 前 人 们 已 
经 发 现 当 概 念 是 由 连续 向 量 RA ) 表示 时 ， 这 种 方式 有 利于 建 模 概 念 之 间 的 联系 
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(Weston et al., 2010; Bordes et al., 2012)。 


10.7 ”长 期 依赖 的 挑战 


学 习 循环 网 络 长 期 依赖 的 数学 挑战 在 第 8.2.5 节 中 引入 。 根 本 问题 是 ， 经 过 许多 
阶段 传播 后 的 梯度 倾向 于 消失 ( 大 部 分 情况 ) 或 爆炸 (很 少 ， 但 对 优化 过 程 影 响 很 
大 )。 即 使 我 们 假设 循环 网 络 是 参数 稳定 的 ( 可 存储 记忆 ， 且 梯度 不 爆炸 ), 但 长 期 依 
赖 的 困难 来 自 比 短期 相互 作用 指数 小 的 权重 (涉及 许多 Jacobian 1HE ), 许多 资料 提 
供 了 更 深层 次 的 讨论 (Hochreiter, 1991a; Doya, 1993; Bengio et al., 1994a; Pascanu 
et al., 2013a)。 在 这 一 节 中 ， 我 们 会 更 详细 地 描述 该 问题 。 其 余 几 闻 介 绍 克 服 这 个 问 
题 的 方法 。 

循环 网 络 涉及 相同 函数 的 多 次 组 合 ， 每 个 时 间 步 一 次 。 这 些 组 合 可 以 导致 极端 
非 线 性 行为 ， 如 图 10.15 所 示 。 





Projection of output 





一 60 一 40 一 20 0 20 40 60 


Input coordinate 








图 10.15: 重复 组 合 函数 。 当 组 合 许多 非 线性 函数 ( 如 这 里 所 示 的 线性 tanh 层 ) 时 ， 结 果 是 高 度 
非 线性 的 ， 通 常 大 多 数值 与 微小 的 导数 相关 联 ， 也 有 一 些 具 有 大 导数 的 值 ， 以 及 在 增加 和 减 小 之 
间 的 多 次 交替 。 此 处 ， 我 们 绘制 从 100 维 隐 藏 状态 降 到 单个 维度 的 线性 投影 ， 绘 制 于 y 轴 上 。z 
轴 是 100 维 空间 中 沿 着 随机 方向 的 初始 状态 的 坐标 。 因 此 ， 我 们 可 以 将 该 图 视 为 高 维 函 数 的 线性 
截面 。 曲 线 显 示 每 个 时 间 步 之 后 的 函数 ， 或 者 等 价 地 ， 转 换 函 数 被 组 合 一 定 次 数 之 后 。 









































特别 地 ， 循 环 神经 网 络 所 使 用 的 函数 组 合 有 点 像 矩 阵 乘法 。 我 们 可 以 认为 ， 循 
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环 联系 
n? = wat) (10.36) 


是 一 个 非常 简单 的 、 缺 少 非 线性 激活 函数 和 输入 z 的 循环 神经 网 络 。 如 第 8.2.5 fih 
述 ， 这 种 递 推 关系 本 质 上 描述 了 笑 法 。 它 可 以 被 简化 为 


AO = (WRO, (10.37) 
而 当 W 符合 下 列 形式 的 特征 分 解 
W — QAQ', (10.38) 
其 中 Q@ 正 交 ， 循 环 性 可 进一步 简化 为 
n? = Q'A Qn. (10.39) 


特征 值 提升 到 上 次 后 ， 导 致 幅 值 不 到 一 的 特征 值 衰减 到 零 ， 而 幅 值 大 于 一 的 就 会 激 
增 。 任 何不 与 最 大 特征 向 量 对 齐 的 nO 的 部 分 将 最 终 被 丢弃 。 

这 个 问题 是 针对 循环 网 络 的 。 在 标量 情况 下 ， 想 象 多 次 乘 一 个 权重 wo ARI 
wt 消失 还 是 爆炸 取决 于 w 的 幅 值 。 然 而 ， 如 果 每 个 时 刻 使 用 不 同 权重 wt 的 非 循 
环 网 络 ， 情 况 就 不 同 了 。 如 果 初 始 状态 给 定 为 1， 那 么 时 刻 t 的 状态 可 以 由 wo 
给 出 。 假 设 v 约 的 值 是 随机 生成 的 ， 各 自 独立 ， 且 有 0 均值 v 方差 。 乘 积 的 方差 
就 为 O(v")。 为 了 获得 某 些 期 望 的 方差 v*， 我 们 可 以 选择 单个 方差 为 v = Vox 权 
重 。 因 此 ， 非 常 深 的 前 馈 网 络 通 过 精心 设计 的 比例 可 以 避免 梯度 消失 和 爆炸 问题 ， 
如 Sussillo (2014) 所 主张 的 。 

RNN 梯度 消失 和 爆炸 问题 是 由 不 同 研究 人 员 独 立 发 现 (Hochreiter, 1991a; 
Bengio et al., 1993, 1994a)。 有 人 可 能 会 希望 通过 简单 地 停留 在 梯度 不 消失 或 爆炸 的 
参数 空间 来 避免 这 个 问题 ,不幸 的 是 , 为 了 储存 记忆 并 对 小 扰动 具有 和 鲁 棱 性 , RNN 必 
须 进 入 参数 空间 中 的 梯度 消失 区 域 (Bengio et al., 1993, 1994a)。 具 体 来 说 ， 每 当 模 
型 能 够 表示 长 期 依赖 时 ， 长 期 相互 作用 的 梯度 幅 值 就 会 变 得 指数 小 ( 相 比 短期 相互 
作用 的 梯度 幅 值 )。 这 并 不 意味 着 这 是 不 可 能 学 习 的 ， 由 于 长 期 依赖 关系 的 信号 很 容 
易 被 短期 相关 性 产生 的 最 小 波动 隐藏 ， 因 而 学 习 长 期 依赖 可 能 需要 很 长 的 时 间 。 实 
践 中 ，Bengio et al. (1994a) 的 实验 表明 ， 当 我 们 增加 了 需要 捕获 的 依赖 关系 的 跨度 ， 
基于 梯度 的 优化 变 得 越 来 越 困 难 ，SGD 在 长 度 仅 为 10 或 20 的 序列 上 成 功 训练 传 
统 RNN 的 概率 迅速 变 为 0。 
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将 循环 网 络 作为 动力 系统 更 深入 探讨 的 资料 见 Doya (1993); Bengio et al. 
(1994a); Siegelmann and Sontag (1995) 及 Pascanu et al. (2013b) 的 回顾 。 本章 的 其 
余部 分 将 讨论 目前 已 经 提出 的 降低 学 习 长 期 依赖 (在 某 些 情况 下 ,允许 一 个 RNN 学 
习 横 跨 数 百 步 的 依赖 ) 难度 的 不 同方 法 ， 但 学 习 长 期 依赖 的 问题 仍 是 深度 学 习 中 的 
一 个 主要 挑战 。 








10.8 ”回声 状态 网 络 


Mao? BO 的 循环 权重 映射 以 及 从 aO 到 nC 的 输入 权重 映射 是 循环 网 
络 中 最 难 学 习 的 参数 。 研 究 者 (Jaeger, 2003; Maass et al., 2002; Jaeger and Haas, 
2004) 提出 避免 这 种 困难 的 方法 是 设 定 循环 隐藏 单元 ， 使 其 能 很 好 地 捕捉 过 去 输入 
历史 ， 并 且 只 学 习 输 出 权重 。 回 声 状态 网 络 (echo state network ) 或 ESN (Jaeger 
and Haas, 2004; Jaeger, 2007b)， 以 及 流体 状态 机 (liquid state machine ) (Maass 
et al., 2002) 分 别 独立 地 提出 了 这 种 想法 。 后 者 是 类 似 的 ， 只 不 过 它 使 用 脉冲 神经 元 
(二 值 输出 ) 而 不 是 ESN 中 的 连续 隐藏 单元 。ESN 和 流体 状态 机 都 被 称 为 储 层 计算 
(reservoir computing ) (Lukoševičius and Jaeger, 2009) ， 因 为 隐藏 单元 形成 了 可 能 
捕获 输入 历史 不 同方 面 的 临时 特征 池 。 

储 层 计算 循环 网 络 类 似 于 核 机 器 ， 这 是 思考 它们 的 一 种 方式 : 它们 将 任意 长 度 
的 序列 ( 到 时 刻 t 的 输入 历史 ) 映射 为 一 个 长 度 固 定 的 向 量 (循环 状态 nO), ZA 
可 以 施加 一 个 线性 预测 算 子 (通常 是 一 个 线性 回归 ) 以 解决 感 兴趣 的 问题 。 训 练 准 
则 就 可 以 很 容易 地 设计 为 输出 权重 的 凸 函 数 。 例 如 ， 如 果 输 出 是 从 隐藏 单元 到 输出 
目标 的 线性 回归 ， 训 练 准则 就 是 均 方 误差 ， 由 于 是 凸 的 就 可 以 用 简单 的 学 习 算 法 可 
靠 地 解决 (Jaeger, 2003)。 

因此 ， 重 要 的 问题 是 : 我 们 如 何 设置 输入 和 循环 权重 才能 让 一 组 丰富 的 历史 可 
以 在 循环 神经 网 络 的 状态 中 表示 ? 储 层 计 算 研 究 给 出 的 答案 是 将 循环 网 络 视 为 动态 
系统 ， 并 设 定 让 动态 系统 接近 稳定 边缘 的 输入 和 循环 权重 。 

最 初 的 想法 是 使 状态 到 状态 转换 函数 的 Jacobian 矩阵 的 特征 值 接近 1。 如 
第 8.2.5 节 解释 ， 循 环 网 络 的 一 个 重要 特征 就 是 Jacobian 矩阵 的 特征 值 谱 J^? = 
BL 。 特 别 重要 的 是 JO 的 谱 半 径 (spectral radius )， 定 义 为 特征 值 的 最 大 绝对 
值 。 

为 了 解 谱 半径 的 影响 ， 可 以 考虑 反 向 传播 中 Jacobian 和 矩阵 J 了 不随 t 改变 的 简单 
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情况 。 例 如 当 网 络 是 纯 线 性 时 ， 会 发 生 这 种 情况 。 假 设 J 特征 值 A 对 应 的 特征 向 量 
为 ve 考虑 当 我 们 通过 时 间 向 后 传播 梯度 向 量 时 会 发 生 什 么 。 如 果 刚 开始 的 梯度 向 量 
为 g， 然 后 经 过 反 疝 传播 的 一 个 步骤 后 ， 我 们 将 得 到 Jg, n 步 之 后 我 们 会 得 到 J" gc 
现在 考虑 如 果 我 们 向 后 传播 扰动 版 本 的 9 会 发 生 什么 。 如 有 果 我 们 刚 开始 是 g + 56%， 
一 步 之 后 ， 我 们 会 得 到 J(g 十 dv). n 步 之 后 ， 我 们 将 得 到 J (gt ov). HERRIE 
以 看 出 ， 由 g 开始 的 反 向 传播 和 由 g + Ou 开始 的 反 向 传播 ，n 步 之 后 偏离 5J*v。 如 
R v 选择 为 了 特征 值 A 对 应 的 一 个 单位 特征 向 量 ， 那 么 在 每 一 步 乘 Jacobian 矩阵 
只 是 简单 地 缩放 。 反 向 传播 的 两 次 执行 分 离 的 距离 为 SAP 24 wv 对 应 于 最 大 特征 值 
IA， 初 始 扰动 为 6 时 这 个 扰动 达到 可 能 的 最 宽 分 离 。 

当 jA > 1， 偏 差 外 |” 就 会 指数 增长 。 当 | 和 | < 1， 偏 差 就 会 变 得 指数 小 。 

当然 ， 这 个 例子 假定 Jacobian 和 矩阵 在 每 个 时 间 步 是 相同 的 ， 即 对 应 于 没有 非 线 
性 循环 网 络 。 当 非 线 性 存在 时 ， 非 线性 的 导数 将 在 许多 时 间 步 后 接近 零 ， 并 有 助 于 
防止 因 过 大 的 谱 半径 而 导致 的 爆炸 。 事 实 上 ， 关 于 回声 状态 网 络 的 最 近 工 作 提 倡 使 
用 远大 于 1 的 谱 半 径 (Yildiz et al., 2012; Jaeger, 2012). 

我 们 已 经 说 过 多 次 ， 通 过 反复 矩阵 乘法 的 反 向 传播 同样 适用 于 没有 非 线 性 的 正 
向 传播 的 网 络 ， 其 状态 为 nt? = aw, 

如 果 线 性 映射 Wl xk L? 范 数 的 测度 下 总 是 缩小 h， 那 么 我 们 说 这 个 映射 是 收 
缩 (contractive ) 的 。 当 谱 半 径 小 于 一 , WA nO 到 AO) 的 映射 是 收缩 的 ， 因 此 小 
变化 在 每 个 时 间 步 后 变 得 更 小 。 当 我 们 使 用 有 限 精度 ( 如 32 位 整数 ) 来 存储 状态 向 
量 时 ， 必 然 会 使 得 网 络 忘掉 过 去 的 信息 。 

Jacobian 和 矩阵 告诉 我 们 n 一 个 微小 的 变化 如 何 向 前 一 步 传播 ， 或 等 价 的 ， 
n^? 的 梯度 如 何 向 后 一 步 传播 。 需要 注意 的 是 ，W 和 J 都 不 需要 是 对 称 的 (尽管 
它们 是 实 方 阵 )， 因 此 它们 可 能 有 复 的 特征 值 和 特征 向 量 ， 其 中 虚数 分 量 对 应 于 淤 
在 的 振荡 行为 (如 果 迷 代 地 应 用 同一 Jacobian )。 即 使 AO 或 h 中 有 趣 的 小 变化 
在 反 向 传播 中 是 实 值 的 , 它们 仍 可 以 用 这 样 的 复数 基 表 示 。 重 要 的 是 ， 当 向 量 乘 以 拢 
阵 时 ， 这 些 复数 基 的 系数 幅 值 ( 复数 的 绝对 值 ) 会 发 生 什 么 变化 。 幅 值 大 于 1 的 特 
征 值 对 应 于 放大 ( 如果 反 复 应 用 则 指数 增长 ) 或 收缩 ( 如 果 反 复 应 用 则 指数 减 小 )。 

非 线 性 映射 情况 时 ，Jacobian 会 在 每 一 步 任意 变化 。 因 此 ， 动 态 量变 得 更 加 复 
杂 。 然 而 ， 一 个 小 的 初始 变化 多 步 之 后 仍然 会 变 成 一 个 大 的 变化 。 纯 线性 和 非 线性 
情况 的 一 个 不 同 之 处 在 于 使 用 压缩 非 线性 〈 如 tanh) 可 以 使 循环 动态 量 有 界 。 注 意 ， 
即使 前 向 传播 动态 量 有 界 ， 反 向 传播 的 动态 量 仍然 可 能 无 界 ， 例 如 ， 当 tanh 序列 


























ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
346 第 十 章 ”序列 建 模 : 循环 和 递归 网 络 


都 在 它们 状态 中 间 的 线性 部 分 ， 并且 由 谱 半 径 大 于 1 的 权重 矩阵 连接 。 然 而 ， 所 有 
tanh 单元 同时 位 于 它们 的 线性 激活 点 是 非常 罕见 的 。 

回声 状态 网 络 的 策略 是 简单 地 固定 权重 使 其 具有 一 定 的 谱 半径 如 3， 其 中 信息 
通过 时 间 前 向 传播 ， 但 会 由 于 饱和 非 线性 单元 (如 tanh) 的 稳定 作用 而 不 会 爆炸 。 

最 近 ， 已 经 有 研究 表明 ， 用 于 设置 ESN 权重 的 技术 可 以 用 来 初始 化 完全 可 训练 
的 循环 网 络 的 权重 〈 通 过 时 间 反 向 传播 来 训练 隐藏 到 隐藏 的 循环 权重 )， 帮 助 学 习 长 
期 依赖 (Sutskever, 2012; Sutskever et al., 2013)。 在 这 种 设 定 下 ， 结 合 第 8.4 节 中 稀 
WEE TERIS, RE 1.2 的 初始 谱 半径 表现 不 错 。 











10.9 ” 渗 漏 单元 和 其 他 多 时 间 尺 度 的 策略 


处 理 长 期 依赖 的 一 种 方法 是 设计 工作 在 多 个 时 间 尺 度 的 模型 ， 使 模型 的 菏 些 部 
分 在 细 粒 度 时 间 尺 度 上 操作 并 能 处 理 小 细节 ， 而 其 他 部 分 在 粗 时 间 尺 度 上 操作 并 能 
把 遥远 过 去 的 信息 更 有 效 地 传递 过 来 。 存 在 多 种 同时 构建 粗细 时 间 斥 度 的 策略 。 这 
些 策略 包括 在 时 间 轴 增加 跳跃 连接 ,“ 渗 漏 单 元 ”使 用 不 同时 间 常 数 整 合 信号 ， 并 去 
除 一 些 用 于 建 模 细 粒 度 时 间 尺 度 的 连接 。 








10.9.1 ”时 间 维 度 的 跳跃 连接 














增加 从 遥远 过 去 的 变量 到 目前 变量 的 直接 连接 是 得 到 粗 时 间 尺 度 的 一 种 方法 。 
使 用 这 样 跳跃 连接 的 想法 可 以 追溯 到 Lin et al. (1996)， 紧 接 是 向 前 馈 网 络 引 入 延迟 
的 想法 (Lang and Hinton, 1988)。 在 普通 的 循环 网 络 中 ,循环 从 时 刻 t 的 单元 连接 
到 时 刻 t 十 1 单元。 构造 较 长 的 延迟 循环 网 络 是 可 能 的 (Bengio et al., 1991)。 

正如 我 们 在 第 8.2.5 节 看 到 ， 梯 度 可 能 关于 时 间 步 数 呈 指数 消失 或 爆炸 。(Lin 
et al., 1996) 引入 了 d 延 时 的 循环 连接 以 减轻 这 个 问题 。 现 在 导数 指数 减 小 的 速度 与 
z 相关 而 不 是 r。 既 然 同 时 存在 延迟 和 单 步 连接 ， 梯 度 仍 可 能 成 t 指数 爆炸 。 这 允许 
学 习 算 法 捕获 更 长 的 依赖 性 ， 但 不 是 所 有 的 长 期 依赖 都 能 在 这 种 方式 下 良好 地 表示 。 
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10.9.2 ” 渗 漏 单元 和 一 系列 不 同时 间 尺 度 








获得 导数 乘积 接近 1 的 男 一 方式 是 设置 线性 自 连接 单元 ， 并 且 这 些 连 接 的 权重 
接近 1。 

我 们 对 某 些 o 值 应 用 更 新 1 — oat 了 十 (1 一 Qq)v 只 累积 一 个 滑动 平均 值 LO, 
其 中 a 是 一 个 从 At 到 pO 线性 自 连接 的 例子 。 当 a 接近 1 时 , 滑动 平均 值 能 记 
住 过 去 很 长 一 段 时 间 的 信息 , 而 当 a 接近 0, 关于 过 去 的 信息 被 迅速 丢弃 。 线 性 自 连 
接 的 隐藏 单元 可 以 模拟 滑动 平均 的 行为 。 这 种 隐藏 单元 称 为 渗 漏 单元 (leaky unit )。 

d 时 间 步 的 跳跃 连接 可 以 确保 单元 总 能 被 先前 的 d 个 时 间 步 值 影响 。 使 用 权重 
接近 1 的 线性 自 连 接 是 确保 该 单元 可 以 访问 过 去 值 的 不 同方 式 。 线 性 自 连接 通过 调 
节 实 值 a 更 平滑 灵活 地 调整 这 种 效果 ， 而 不 是 调整 整数 值 的 跳跃 长 度 。 

这 个 想法 由 Mozer (1992) 和 El Hihi and Bengio (1996) 提出 。 在 回声 状态 网 
络 中 ， 渗 漏 单元 也 被 发 现 很 有 用 (Jaeger et al., 2007). 

我 们 可 以 通过 两 种 基本 策略 设置 渗 漏 单元 使 用 的 时 间 稼 数 。 一 种 策略 是 手动 将 
其 固定 为 常数 ， 例 如 在 初始 化 时 从 某 些 分 布 采样 它们 的 值 。 另 一 种 策略 是 使 时 间 常 
数 成 为 自由 变量 ， 并 学 习 出 来 。 在 不 同时 间 尺 度 使 用 这 样 的 渗 漏 单元 似乎 能 帮助 学 
习 长 期 依赖 (Mozer, 1992; Pascanu et al., 2013a)。 














10.9.3 ”删除 连接 


处 理 长 期 依赖 另 一 种 方法 是 在 多 个 时 间 尺 度 组 织 RNN 状态 的 想法 (El Hihi and 
Bengio, 1996), ， 信 息 在 较 慢 的 时 间 尺 度 上 更 容易 长 距离 流动 。 

这 个 想法 与 之 前 讨论 的 时 间 维 度 上 的 跳跃 连接 不 同 ， 因 为 它 涉及 主动 删除 长 度 
为 一 的 连接 并 用 更 长 的 连接 替换 它们 。 以 这 种 方式 修改 的 单元 被 迫 在 长 时 间 尺 度 上 
运作 。 而 通过 时 间 跳 跃 连接 是 添加 边 。 收 到 这 种 新 连接 的 单元 ， 可 以 学 习 在 长 时 间 
尺度 上 运作 ,但 也 可 以 选择 专注 于 自己 其 他 的 短期 连接 。 

强制 一 组 循环 单元 在 不 同时 间 尺 度 上 运作 有 不 同 的 方式 。 一 种 选择 是 使 循环 
单元 变 成 渗 漏 单元 ， 但 不 同 的 单元 组 关联 不 同 的 固定 时 间 尺 度 。 这 由 Mozer (1992) 
提出 ， 并 被 成 功 应 用 于 Pascanu et al. (2013a)。 另 一 种 选择 是 使 显 式 且 离散 的 更 新 
发 生 在 不 同 的 时 间 ， 不 同 的 单元 组 有 不 同 的 频率 。 这 是 El Hihi and Bengio (1996) 
和 Koutnik et al. (2014) 的 方法 。 它 在 一 些 基 准 数据 集 上 表现 不 错 。 
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10.10 ”长 短期 记忆 和 其 他 门 控 RNN 


本 文 撰写 之 时 ， 实 际 应 用 中 最 有 效 的 序列 模型 称 为 门 控 RNN (gated RNN )。 
包括 基于 长 短期 记忆 (long short-term memory ) 和 基于 门 控 循 环 单元 (gated 
recurrent unit ) 的 网 络 。 

像 渗 漏 单元 一 样 ， 门 控 RNN 想法 也 是 基于 生成 通过 时 间 的 路 径 ， 其 中 导数 既 不 
消失 也 不 发 生 爆 炸 。 渗 漏 单元 通过 手动 选择 常量 的 连接 权重 或 参数 化 的 连接 权重 来 
达到 这 一 目的 。 门 控 RNN 将 其 推广 为 在 每 个 时 间 步 都 可 能 改变 的 连接 权重 。 

渗 漏 单元 允许 网 络 在 较 长 持续 时 间 内 积 系 信息 (诸如 用 于 特定 特征 或 类 的 线 
索 )。 然 而 ， 一 旦 该 信息 被 使 用 ， 让 神经 网 络 遗 总 旧 的 状态 可 能 是 有 用 的 。 例 如 ， 如 
果 一 个 序列 是 由 子 序列 组 成 ， 我 们 希望 渗 漏 单元 能 在 各 子 序列 内 积累 线索 ， 我 们 需 
要 将 状态 设置 为 0 以 忘记 旧 状 态 的 的 机 制 。 我 们 希望 神经 网 络 学 会 决定 何 时 清除 状 
态 ， 而 不 是 手动 决定 。 这 就 是 门 控 RNN 要 做 的 事 。 








10.10.1 LSTM 


引入 自 循环 的 巧妙 构思 ， 以 产生 梯度 长 时 间 持 续 流 动 的 路 径 是 初始 长 短期 记忆 
(long short-term memory, LSTM ) 模型 的 核心 贡献 (Hochreiter and Schmidhuber, 
1997)。 其 中 一 个 关键 扩展 是 使 自 循环 的 权重 视 上 下 文 而 定 ， 而 不 是 固定 的 (Gers 
et al., 2000)。 门 探 此 自 循环 〈 由 另 一 个 隐藏 单元 控制 ) 的 权重 ， 累 积 的 时 间 尺 度 可 
以 动态 地 改变 。 在 这 种 情况 下 ， 即 使 是 具有 固定 参数 的 LSTM， 累 积 的 时 间 尺 度 也 
可 以 因 输 入 序列 而 改变 ， 因 为 时 间 常 数 是 模型 本 号 的 输出 。LSTM 已 经 在 许多 应 用 
中 取得 重大 成 功 ， 如 无 约束 手写 识别 (Graves and Schmidhuber, 2009)、 语 音 识别 
(Graves et al., 2013; Graves and Jaitly, 2014)、 手 写 识别 (Graves et al., 2013) 、 机 
WIPE (Sutskever et al., 2014)、 为 图 像 生成 标题 (Kiros et al., 2014b; Vinyals et al., 
2014b; Xu et al., 2015) 和 解析 (Vinyals et al., 2014a)。 


LSTM 块 如 图 10.16 所 示 。 在 浅 循环 网 络 的 架构 下 ， 相 应 的 前 向 传播 公式 如 下 。 
更 深 的 架构 也 被 成 功 应 用 (Graves et al., 2013; Pascanu et al., 2014a), LSTM 循 
环 网 络 除 了 外 部 的 RNN 循环 外 ， 还 具有 内 部 的 “LSTM 细胞 ”循环 〈 自 环 )， 
此 LSTM 不 是 简单 地 回 输 入 和 循环 单元 的 仿 射 变换 之 后 施加 一 个 逐 元 素 的 非 线性 。 
与 普通 的 循环 网 络 类 似 ， 每 个 单元 有 相同 的 输入 和 输出 ， 但 也 有 更 多 的 参数 和 控制 
信息 流动 的 门 控 单元 系统 。 最 重要 的 组 成 部 分 是 状态 单元 3, tat miele 
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output 





self-loop 


input gate forget g output gate 











图 10.16: LSTM 循环 网 络 “ 细 胞 ”的 框图 。 细 胞 彼此 循环 连接 ， 代 将 一 般 循环 网 络 中 普通 的 隐藏 
单元 。 这 里 使 用 常规 的 人 工 神经 元 计算 输入 特征 。 如 果 sigmoid 输入 门 允 许 , 它 的 值 可 以 累加 到 状 
态 。 状 态 单元 具有 线性 自 循环 ， 其 权重 由 遗忘 门 控制 。 细 胞 的 输出 可 以 被 输出 门 关 闭 。 所 有 门 控 单 
元 都 具有 sigmoid 非 线性 ， 而 输入 单元 可 具有 任意 的 压缩 非 线性 。 状 态 单元 也 可 以 用 作 门 控 单 元 
的 额外 输入 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 。 




































































单元 有 类 似 的 线性 自 环 。 然 而 ， 此 处 自 环 的 权重 (或 相关 联 的 时 间 常 数 ) 由 遗忘 门 
(forget gate ) fe 控制 (时刻 t 和 细胞 i), H sigmoid 单元 将 权重 设置 为 0 和 1 之 
间 的 值 : 








49 e +) Ue + wa), (030) 
j j 











其 中 sO 是 当前 输入 向 量 ，h ee SHA, h 包含 所 有 LSTM 细胞 的 输出 。 
2 邦人 厂 分别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 因 此 LSTM 细胞 内 部 状态 

















ww ai bbt. com DODOODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
350 第 十 章 ”序列 建 模 : 循环 和 递归 网 络 


以 如 下 方式 更 新 ， 其 中 有 一 个 条 件 的 自 环 权 重 fO. 
P= 198? roo (mt E UP + WM), qnan 
j j 
其 中 b, U, W 分 别 是 LSTM 细胞 中 的 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 外 部 输 


A (external input gate) 单元 g 以 类 似 遗 忘 门 (使 用 sigmoid 获 得 一 个 0 和 1 之 
AE) 的 方式 更 新 ， 但 有 自身 的 参数 : 





d = e(t Cota? + wg) 10.2 
j j 


LSTM 细胞 的 输出 AO 也 可 以 由 输出 门 (output gate) qi? 关闭 (使 用 sigmoid 单 元 
作为 门 控 ): 


h(? = tanh(s(?)q(?, (10.43) 


( 
d? = e(t + YI Uta + wr), ce 
j j 


其 中 b, U, W 分 别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 在 这 些 变 体 中 ， 可 以 
选择 使 用 细胞 状态 sO 作为 额外 的 输入 (及 其 权重 )， 输 入 到 第 i 个 单元 的 三 个 门 ， 
如 图 10.16 所 示 。 这 将 需要 三 个 额外 的 参数 。 

LSTM 网 络 比 人 简单 的 循环 架构 更 易于 学 习 长 期 依赖 ， 先 是 用 于 测试 长 期 依 
赖 学 习 能 力 的 人 工 数 据 集 (Bengio et al., 1994b; Hochreiter and Schmidhuber, 1997; 
Hochreiter et al., 2001)， 然 后 是 在 具有 挑战 性 的 序列 处 理 任务 上 获得 最 先进 的 表现 
(Graves, 2012, 2013; Sutskever et al., 2014)。LSTM 的 变 体 和 替代 也 已 经 被 研究 和 
使 用 ， 这 将 在 下 文 进行 讨论 。 





10.10.2 ”其 他 门 控 RNN 





LSTM 架构 中 哪些 部 分 是 真正 必须 的 ? 还 可 以 设计 哪些 其 他 成 功 架 构 允 许 网 络 
动态 地 控制 时 间 尺 度 和 不 同 单元 的 遗忘 行为 ? 

最 近 关 于 门 控 RNN 的 工作 给 出 了 这 些 问 题 的 某 些 答案 , 其 单元 也 被 称 为 门 控 循 
环 单元 或 GRU (Cho et al., 2014c; Chung et al., 2014, 2015a; Jozefowicz et al., 2015; 
Chrupala et al., 2015), 5; LSTM 的 主要 区 别 是 ， 单 个 门 控 单元 同时 控制 遗忘 因子 
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和 更 新 状态 单元 的 决定 。 更 新 公式 如 下 : 








n® = 70879 + (4— ul ?)o (b. +Y Un + > Wi gr PE) , (10.45) 
j j 





其 中 u AK EI], r 表示 “复位 ” 门 。 它 们 的 值 就 如 通常 所 定义 的 : 
ul? = a(b + `> gius 十 >， wene) , (10.46) 
了 j 
和 
r® =o (0; 十 ` Ua 十 `> Wii np). (10.47) 
j j 


复位 和 更 新 门 能 独立 地 “忽略 ”状态 向 量 的 一 部 分 。 更 新 门 像 条 件 活 漏 累 积 器 一 样 可 
以 线性 门 控 任意 维度 ， 从 而 选择 将 它 复制 (在 sigmoid 的 一 个 极端 ) 或 完全 由 新 的 
“目标 状态 ” E ( 朝向 渗 漏 累积 带 的 收敛 方向 ) 蔡 换 并 完全 忽略 它 〈 在 另 一 个 极端 )。 
复位 门 控 制 当 前 状态 中 哪些 部 分 用 于 计算 下 一 个 目标 状态 ， 在 过 去 状态 和 未 来 状态 
之 间 引 入 了 附加 的 非 线 性 效应 。 

围绕 这 一 主题 可 以 设计 更 多 的 变种 。 例 如 复位 门 (或 遗忘 门 ) 的 输出 可 以 在 
多 个 隐藏 单元 间 共 享 。 或 者 ， 全 局 门 的 乘积 ( 覆盖 一 整 组 的 单元 ,例如 整 一 层 ) 和 
一 个 局 部 门 (每 单元 ) 可 用 于 结合 全 局 控制 和 局 部 控制 。 然 而 ， 一 些 调查 发 现 这 
些 LSTM 和 GRU 架构 的 变种 ， 在 广泛 的 任务 中 难以 明显 地 同时 击败 这 两 个 原始 架 
构 (Greff et al., 2015; Jozefowicz et al., 2015). Greff et al. (2015) 发 现 其 中 的 关键 因 
素 是 遗忘 门 , 而 Jozefowicz et al. (2015) 发 现 向 LS'TM 遗忘 门 加 入 1 的 偏 置 ( 由 Gers 
et al. (2000) 提倡 ) 能 让 LSTM 变 得 与 已 探索 的 最 佳 变种 一 样 健壮 。 



































10.11 ”优化 长 期 依赖 


我 们 已 经 在 第 8.2.5 节 和 第 10.7 节 中 描述 过 在 许多 时 间 步 上 优化 RNN 时 发 生 
的 梯度 消失 和 爆炸 的 问题 。 

由 Martens and Sutskever (2011) 提出 了 一 个 有 趣 的 想法 是 ,二 阶 导数 可 能 在 一 
阶 导数 消失 的 同时 消失 。 二 阶 优化 算法 可 以 大 致 被 理解 为 将 一 阶 导 数 除 以 二 阶 导数 
(在 更 高 维 数 ， 由 梯度 乘 以 Hessian 的 逆 )。 如 果 二 阶 导 数 与 一 阶 导 数 以 类 似 的 速率 
收缩 ， 那 么 一 阶 和 二 阶 导数 的 比率 可 保持 相对 恒定 。 不 幸 的 是 ， 二 阶 方法 有 许多 缺 
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abe 第 十 章 ”序列 建 模 : 循环 和 递归 网 络 
点 ， 包 括 高 的 计算 成 本 、 需 要 一 个 大 的 小 批量 、 并 且 倾 向 于 被 吸引 到 鞍点 。Martens 


and Sutskever (2011) 发 现 采 用 二 阶 方法 的 不 错 结 果 。 之 后 ，Sutskever et al. (2013) 
发 现 使 用 较 简 单 的 方法 可 以 达到 类 似 的 结果 ， 例 如 经 过 谨慎 初始 化 的 Nesterov 动量 
法 。 更 详细 的 内 容 参 考 Sutskever (2012)。 应 用 于 LSTM 时 ， 这 两 种 方法 在 很 大 程 
度 上 会 被 单纯 的 SGD ( 其 至 没有 动量 ) 取代 。 这 是 机 器 学 习 中 一 个 延续 的 主题 ， 设 
计 一 个 易于 优化 模型 通常 比 设计 出 更 加 强大 的 优化 算法 更 容易 。 





10.11.1 截断 梯度 


如 第 8.2.4 节 讨论 ， 强 非 线 性 函数 ( 如 由 许多 时 间 步 计算 的 循环 网 络 ) 往往 倾向 
于 非常 大 或 非常 小 幅度 的 梯度 。 如 图 8.3 和 图 10.17 所 示 , 我 们 可 以 看 到 ， 目 标 函 数 
(作为 参数 的 函数 ) 存在 一 个 伴随 “ 悬 岩 ” 的“ 地形 ”: 宽 且 相当 平坦 区 域 被 目标 也 
数 变 化 快 的 小 区 域 隔 开 ， 形 成 了 一 种 悬崖 。 

这 导致 的 困难 是 ， 当 参数 梯度 非常 大 时 ， 梯 度 下 降 的 参数 更 新 可 以 将 参数 抛 出 
很 远 ， 进 入 目标 函数 较 大 的 区 域 ， 到 达 当 前 解 所 作 的 努力 变 成 了 无 用 功 。 梯 度 告诉 
我 们 ， 围 绕 当 前 参数 的 无 穷 小 区 域内 最 速 下 降 的 方向 。 这 个 无 穷 小 区 域 之 外 ， 代 价 
函数 可 能 开始 沿 曲线 背面 而 上 。 更 新 必须 被 选择 为 足够 小 ， 以 避免 过 分 穿越 向 上 的 
曲面 。 我 们 通常 使 用 衰减 速度 足够 慢 的 学 习 率 ， 使 连续 的 步骤 具有 大 致 相同 的 学 习 
率 。 适 合 于 一 个 相对 线性 的 地 形 部 分 的 步 长 经 常 在 下 一 步 进 入 地 形 中 更 加 弯曲 的 部 
分 时 变 得 不 适合 ， 会 导致 上 坡 运动 。 

一 个 简单 的 解决 方案 已 被 从 业者 使 用 多 年 : 截断 梯度 (clipping the gradient )。 
此 想法 有 不 同 实例 (Mikolov, 2012; Pascanu et al., 2013a)。 一 种 选择 是 在 参数 更 新 
之 前 ， 逐 元 素 地 截断 小 批量 产生 的 参数 梯度 (Mikolov, 2012)。 另 一 种 是 在 参数 更 新 
之 前 截断 梯度 g 的 范 数 |[g|| (Pascanu et al., 2013a): 














if llgl >v (10.48) 


和 10.49 
9 


lall 


其 中 v 是 范 数 上 界 ，9 用 来 更 新 参数 。 因 为 所 有 参数 ( 包括 不 同 的 参数 组 ， 如 权重 
和 偏 置 ) 的 梯度 被 单个 缩放 因子 联合 重 整 化 ， 所 以 后 一 方法 具有 的 优点 是 保证 了 每 
个 步骤 仍然 是 在 梯度 方向 上 的 ， 但 实验 表明 两 种 形式 类 似 。 虽 然 参 数 更 新 与 真实 梯 
度 具有 相同 的 方向 梯度 , 经 过 梯度 范 数 截断 ,参数 更 新 的 向 量 范 数 现在 变 得 有 界 。 这 
种 有 界 梯 度 能 避免 执行 梯度 爆炸 时 的 有 害 一 步 。 事 实 上 ， 当 梯度 大 小 高 于 国 值 时 ， 即 
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图 10.17: 梯度 截断 在 有 两 个 参数 w 和 b 的 循环 网 络 中 的 效果 示例 。 梯 度 截 断 可 以 使 梯度 下 降 在 
极 陡峭 的 悬崖 附近 更 合理 地 执行 。 这 些 陡 峭 的 悬崖 通常 发 生 在 循环 网 络 中 , 位 于 循环 网 络 近 似 线性 
的 附近 。 悬 崖 在 时 间 步 的 数量 上 呈 指 数 地 陡峭 ， 因 为 对 于 每 个 时 间 步 ， 权 重 矩 阵 都 自 乘 一 次 。( 左 ) 
没有 梯度 截断 的 梯度 下 降 越 过 这 个 小 峡谷 的 底部 ， 然 后 从 悬崖 面 接收 非常 大 的 梯度 。 大 梯度 灾难 
性 地 将 参数 推 到 图 的 轴 外 。( 右 ) 使 用 梯度 截断 的 梯度 下 降 对 悬崖 的 反应 更 温和 。 当 它 上 升 到 悬崖 
面 时 ， 步 长 受到 限制 ， 使 得 它 不 会 被 推出 靠近 解 的 陡峭 区 域 。 经 Pascanu et al. (2013a) 许可 改编 
此 图 。 


















































使 是 采取 简单 的 随机 步骤 往往 工作 得 几乎 一 样 好 。 如 果 爆 炸 非常 严重 ， 梯 度数 值 上 
为 Inf 或 Nan〈 无 穷 大 或 不 是 一 个 数字 )， 则 可 以 采取 大 小 为 v 的 随机 一 步 ， 通 常 
会 离开 数值 不 稳定 的 状态 。 截 断 每 小 批量 梯度 范 数 不 会 改变 单个 小 批量 的 梯度 方向 。 
然而 ， 许 多 小 批量 使 用 范 数 截断 梯度 后 的 平均 值 不 等 同 于 截断 真实 梯度 〈 使 用 所 有 
的 实例 所 形成 的 梯度 ) 的 范 数 。 大 导数 范 数 的 样本 ， 和 像 这 样 的 出 现在 同一 小 批量 的 
样本 ， 其 对 最 终 方向 的 贡献 将 消失 。 不 像 传统 小 批量 梯度 下 降 ， 其 中 真实 梯度 的 方 
向 是 等 于 所 有 小 批量 梯度 的 平均 。 换 句 话 说， 传统 的 随机 梯度 下 降 使 用 梯度 的 无 偏 
估计 ， 而 与 使 用 范 数 截断 的 梯度 下 降 引 入 了 经 验 上 是 有 用 的 启发 式 偏 置 。 通 过 逐 元 
素 截 断 ， 更 新 的 方向 与 真实 梯度 或 小 批量 的 梯度 不 再 对 齐 ， 但 是 它 仍 然 是 一 个 下 降 
方向 。 还 有 学 者 提出 (Graves, 2013) 〈 相对 于 隐藏 单元 ) 截断 反 向 传播 梯度 ,但 没有 
公布 与 这 些 变种 之 间 的 比较 ; 我 们 推测 ， 所 有 这 些 方法 表现 类 似 。 
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10.11.2 引导 信息 流 的 正则 化 


梯度 截断 有 助 于 处 理 爆 炸 的 梯度 ， 但 它 无 助 于 消失 的 梯度 。 为 了 解决 消失 的 梯 
度 问题 并 更 好 地 捕获 长 期 依赖 ,我们 讨论 了 如 下 想法 : 在 展开 循环 架构 的 计算 图 中 ， 
沿 着 与 弧度 相关 联 的 梯度 乘积 接近 1 的 部 分 创建 路 径 。 在 第 10.10 节 中 已 经 讨论 过 ， 
实现 这 一 点 的 一 种 方法 是 使 用 LSTM 以 及 其 他 自 循环 和 门 控 机 制 。 另 一 个 想法 是 正 
则 化 或 约束 参数 ， 以 引导 “信息 流 ”。 特 别 是 即使 损失 函数 只 对 序列 尾部 的 输出 作 惩 
罚 ， 我 们 也 希望 梯度 向 量 Vro L 在 反 回 传播 时 能 维持 其 幅度 。 形 式 上 ， 我 们 要 使 




















On? 
(Vaat e (10.50) 
与 

S ud (10.51) 

一 样 大 。 在 这 个 目标 下 ，Pascanu et al. (2013a) 提出 以 下 正则 项 : 

(VoL) gis i 

Q= | l1. 10.52 
2 ( Dr 2 


计算 这 一 梯度 的 正则 项 可 能 会 出 现 困 难 ， 但 Pascanu et al. (2013a) 提出 可 以 将 后 向 
传播 向 量 V co L 考虑 为 恒 值 作为 近似 (为 了 计算 正则 化 的 目的 ， 没 有 必要 通过 它们 
向 后 传播 )。 使 用 该 正则 项 的 实验 表明 ， 如 果 与 标准 的 启发 式 截 断 ( 处 理 梯 度 爆 炸 ) 
相 结合 ， 该 正则 项 可 以 显著 地 增加 RNN 可 以 学 习 的 依赖 跨度 。 梯 度 截 断 特 别 重要 , 
因为 它 保持 了 爆炸 梯度 边缘 的 RNN 动态 。 如 果 没 有 梯度 截断 ,梯度 爆炸 将 阻碍 学 习 
的 成 功 。 

这 种 方法 的 一 个 主要 弱点 是 ， 在 处 理 数据 元 余 的 任务 时 如 语言 模型 ， 它 并 不 
像 LSTM 一 样 有 效 。 


10.12 外 显 记 忆 


智能 需要 知识 并 且 可 以 通过 学 习 获 取 知 识 ， 这 已 促使 大 型 深度 架构 的 发 展 。 然 
而 ， 知 识 是 不 同 的 并 且 种 类 繁多 。 有 些 知识 是 隐 含 的 、 浴 意识 的 并 且 难 以 用 语言 

达 一 一 比如 怎么 行走 或 狗 与 猫 的 样子 有 什么 不 同 。 其 他 知识 可 以 是 明确 的 、 可 陈述 
的 以 及 可 以 相对 简单 地 使 用 词语 表达 一 一 每 天 常识 性 的 知识 ， 如 “ 猫 是 一 种 动物 ”， 
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或 者 为 实现 自己 当前 目标 所 需 知 道 的 非常 具体 的 事实 ， 如 “与 销售 团队 会 议 在 141 
室 于 下 午 3:00 开始 ”。 

神经 网 络 擅长 存储 隐 性 知识 ， 但 是 他 们 很 难 记 住 事 实 。 被 存储 在 神经 网 络 参 数 
中 之 前 ， 随 机 梯度 下 降 需 要 多 次 提供 相同 的 输入 ， 即 使 如 此 ， 该 输入 也 不 会 被 特 
别 精确 地 存储 。Graves et al. (2014) 推测 这 是 因为 神经 网 络 缺 乏 工作 存储 (working 
memory) 系统 ， 即 类 似 人 类 为 实现 一 些 目标 而 明确 保存 和 操作 相关 信息 片段 的 系统 。 
这 种 外 显 记 忆 组 件 将 使 我 们 的 系统 不 仅 能 够 快速 “故意 ”地 存储 和 检索 具体 的 事实 ， 
也 能 利用 他 们 循序 推论 。 神 经 网 络 处 理 序列 信息 的 需要 ， 改 变 了 每 个 步骤 向 网 络 注 
人 输入 的 方式 ， 长 期 以 来 推理 能 力 被 认为 是 重要 的 ， 而 不 是 对 输入 做 出 自动 的 、 直 
观 的 反应 (Hinton, 1990) 。 

为 了 解决 这 一 难题 ，Weston et al. (2014) 引入 了 记忆 网 络 (memory network ), 
其 中 包括 一 组 可 以 通过 寻 址 机 制 来 访问 的 记忆 单元 。 记 忆 网 络 原 本 需要 监督 信和 号 
指示 他 们 如 何 使 用 自己 的 记忆 单元 。Graves et al. (2014) 引入 的 神经 网 络 图 灵机 
(neural Turing machine )， 不 需要 明确 的 监督 指示 采取 哪些 行动 而 能 学 习 从 记忆 单 
元 读 写 任意 内 容 ， 并 通过 使 用 基于 内 容 的 软 注 意 机 制 ( 见 Bahdanau et al. (2015) 
和 第 12.4.5.1 节 )， 人 允许 端 到 端的 训练 。 这 种 软 寻 址 机 制 已 成 为 其 他 允许 基于 梯度 优 
化 的 模拟 算法 机 制 的 相关 架构 的 标准 (Sukhbaatar et al., 2015; Joulin and Mikolov, 
2015; Kumar et al., 2015a; Vinyals et al., 2015a; Grefenstette et al., 2015). 


每 个 记忆 单元 可 以 被 认为 是 LSTM 和 GRU 中 记忆 单元 的 扩展 。 不 同 的 是 ， 网 
络 输出 一 个 内 部 状态 来 选择 从 哪个 单元 读 取 或 写 入 ， 正 如 数字 计算 机 读 取 或 写 人 到 
特定 地 址 的 内 存 访问 。 

产生 确切 整数 地 址 的 函数 很 难 优 化 。 为 了 缓解 这 一 问题 ，NTM 实际 同时 从 多 个 
记忆 单元 写 入 或 读 取 。 读 取 时 ， 它 们 采取 许多 单元 的 加 权 平 均值 。 写 入 时 ， 他 们 对 
多 个 单元 修改 不 同 的 数值 。 用 于 这 些 操 作 的 系数 被 选择 为 集中 在 一 个 小 数目 的 单元 ， 
如 通过 softmax 函数 产生 它们 。 使 用 这 些 具 有 非 零 导 数 的 权重 允许 函数 控制 访问 存 
储 器 ， 从 而 能 使 用 梯度 下 降 法 优化 。 关 于 这 些 系数 的 梯度 指示 着 其 中 每 个 参数 是 应 
该 增加 还 是 减少 ， 但 梯度 通常 只 在 接收 大 系数 的 存储 器 地 址 上 变 大 。 

这 些 记忆 单元 通常 扩充 为 包含 向 量 ， 而 不 是 由 LSTM 或 GRU 存储 单元 所 存 
储 的 单个 标量 。 增 加 记忆 单元 大 小 的 原因 有 两 个 。 原 因 之 一 是 ,我 们 已 经 增加 了 访 
问 记 忆 单 元 的 成 本 。 我 们 为 产生 用 于 许多 单元 的 系数 付出 计算 成 本 ， 但 我 们 预期 这 
些 系数 聚集 在 周围 小 数目 的 单元 。 通 过 读 取 向 量 值 ， 而 不 是 一 个 标量 ， 我 们 可 以 抵 
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消 部 分 成 本 。 使 用 向 量 值 的 记忆 单元 的 另 一 个 原因 是 ， 它 们 允许 基于 内 容 的 寻 址 
(content-based addressing)， 其 中 从 一 个 单元 读 或 写 的 权重 是 该 单元 的 函数 。 如 果 我 
们 能 够 生产 符合 某 些 但 并 非 所 有 元 素 的 模式 ， 向 量 值 单元 允许 我 们 检索 一 个 完整 向 
量 值 的 记忆 。 这 类 似 于 人 们 能 够 通过 几 个 歌词 回忆 起 一 首 歌曲 的 方式 。 我 们 可 以 认 
为 基于 内 容 的 读 取 指 令 是 说 ,“ 检 索 一 首 副 歌 歌词 中 带 有 ; 我 们 都 住 在 黄色 洪水 艇 ’ 的 
歌 "。 当 我 们 要 检索 的 对 象 很 大 时 ， 基 于 内 容 的 寻 址 更 为 有 用 一 一 如 果 歌 曲 的 每 一 个 
字母 被 存储 在 单独 的 记忆 单元 中 , 我 们 将 无 法 通过 这 种 方式 找到 他 们 。 通过 比较 , E 
于 位 置 的 寻 址 (location-based addressing) 不 允许 引用 存储 需 的 内 容 。 我 们 可 以 认为 
基于 位 置 的 读 取 指 令 是 说 “检索 347 档 的 歌 的 歌词 。 即 使 当 存 储 单元 很 小 时 ， 基 于 
位 置 的 寻 址 通常 也 是 完全 合理 的 机 币 

如 果 一 个 存储 单元 的 内 容 在 大 多 数 时 间 步 上 会 被 复制 (不 被 忘记 )， 则 它 包含 的 
信息 可 以 在 时 间 上 向 前 传播 ， 随 时 间 向 后 传播 的 梯度 也 不 会 消失 或 爆炸 。 
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图 10.18: 具有 外 显 记忆 网 络 的 示意 图 ， 具 备 神经 网 络 图 灵机 的 一 些 关键 设计 元 素 。 在 此 图 中 ,我 
们 将 模型 的 “表示 ”部 分 (“任务 网 络 ”"， 这 里 是 底部 的 循环 网 络 ) 与 存储 事实 的 模型 ( 记忆 单元 的 
集合 ) 的 “存储 器 ”部 分 区 分 开 。 任 务 网 络 学 习 “ 控 制 ” 存储 器 ， 决 定 从 哪 读 取 以 及 在 哪 写 入 ( 通 
过 读 取 和 写 入 机 制 ， 由 指向 读 取 和 写 入 地 址 的 粗 稍 头 指示 )。 
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外 显 记忆 的 方法 在 图 10.18 说 明 ， 其 中 我 们 可 以 看 到 与 存储 器 耦 接 的 “任务 神 
经 网 络 "。 虽 然 这 一 任务 神经 网 络 可 以 是 前 馈 或 循环 的 ， 但 整个 系统 是 一 个 循环 网 
络 。 任 务 网 络 可 以 选择 读 取 或 写 入 的 特定 内 存 地 址 。 外 显 记忆 似乎 允许 模型 学 习 普 


ww ai bbt. com [10 UO ELO. D 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
10.12 外 显 记忆 357 





ii RNN 或 LSTM RNN 不 能 学 习 的 任务 。 这 种 优点 的 一 个 原因 可 能 是 因为 信息 和 梯 
度 可 以 在 非常 长 的 持续 时 间 内 传播 (分别 在 时 间 上 向 前 或 向 后 )。 

作为 存储 器 单元 的 加 权 平 均值 反 向 传播 的 替代 ， 我 们 可 以 将 存储 器 寻 址 系数 解 
释 为 概率 ， 并 随机 从 一 个 单元 读 取 (Zaremba and Sutskever, 2015)。 优 化 离散 决策 
的 模型 需要 专门 的 优化 算法 ,这 将 在 第 20.9.1 节 中 描述 。 目 前 为 止 ， 训练 这 些 做 离散 
决策 的 随机 架构 ， 仍 比 训练 进行 软 判决 的 确定 性 算法 更 难 。 

无 论 是 软 ( 允许 反 向 传播 ) 或 随机 硬性 的 ， 用 于 选择 一 个 地 址 的 机 制 与 先前 
在 机 器 翻译 的 背景 下 引入 的 注意 力 机 制 形式 相同 (Bahdanau et al., 2015)， 这 在 
第 12.4.5.1 节 中 也 有 讨论 。 甚 至 更 早 之 前 ， 注 意 力 机 制 的 想法 就 被 引入 了 神经 网 络 ， 
在 手写 生成 的 情况 下 (Graves, 2013), ， 有 一 个 被 约束 为 通过 序列 只 向 前 移动 的 注意 力 
机 制 。 在 机 器 翻译 和 记忆 网 络 的 情况 下 ， 每 个 步骤 中 关注 的 焦点 可 以 移动 到 一 个 完 
全 不 同 的 地 方 ( 相 比 之 前 的 步骤 )。 

循环 神经 网 络 提 供 了 将 深度 学 习 扩 展 到 序列 数据 的 一 种 方法 。 它 们 是 我 们 的 深 
度 学 习 工 具 箱 中 最 后 一 个 主要 的 工具 。 现 在 我 们 的 讨论 将 转移 到 如 何 选 择 和 使 用 这 
些 工 具 ， 以 及 如 何在 真实 世界 的 任务 中 应 用 这 些 工 具 。 
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要 成 功 地 使 用 深度 学 习 技术 ， 仅 仅 知 道 存 在 哪些 算法 和 解释 他 们 为 何 有 效 的 原 
理 是 不 够 的 。 一 个 优秀 的 机 器 学 习 实 践 者 还 需要 知道 如 何 针对 具体 应 用 挑选 一 个 合 
适 的 算法 以 及 如 何 监控 ， 并 根据 实验 反馈 改进 机 器 学 习 系 统 。 在 机 器 学 习 系统 的 日 
常 开 发 中 ， 实 践 者 需要 决定 是 否 收集 更 多 的 数据 、 增 加 或 减少 模型 容量 、 添 加 或 删 
除 正则 化 项 、 改 进 模型 的 优化 、 改 进 模型 的 近似 推断 或 调试 模型 的 软件 实现 。 尝 试 
这 些 操作 都 需要 大 量 时 间 ， 因 此 确定 正确 做 法 ， 而 不 盲目 猜测 尤为 重要 的 。 

本 书 的 大 部 分 内 容 都 是 关于 不 同 的 机 器 学 习 模 型 、 训 练 算法 和 目标 函数 。 这 可 
能 给 人 一 种 印象 一 一 成 为 机 器 学 习 专 家 的 最 重要 因素 是 了 解 各 种 各 样 的 机 器 学 习 技 
AR, 并 熟悉 各 种 不 同 的 数学 。 在 实践 中 , 正确 使 用 一 个 普通 算法 通常 比 草 率 地 使 用 一 
个 不 清楚 的 算法 效果 更 好 。 正 确 应 用 一 个 算法 需要 掌握 一 些 相当 简单 的 方法 论 。 本 
章 的 许多 建议 都 来 自 Ng (2015). 

我 们 建议 参考 以 下 几 个 实践 设计 流程 : 











。 确定 目标 一 一 使 用 什么 样 的 误差 度量 ， 并 为 此 误差 度量 指定 目标 值 。 这 些 目标 
和 误差 度量 取决 于 该 应 用 旨 在 解决 的 问题 。 


。 尺 快 建立 一 个 端 到 端的 的 工作 流程 ， 包 括 佑 计 合 适 的 性 能 度量 。 

。 搭建 系统 ， 并 确定 性 能 瓶 贷 。 检 查 哪个 部 分 的 性 能 差 于 预期 ， 以 及 是 否 是 因 
为 过 拟 合 、 欠 拟 合 ,或 者 数据 或 软件 缺陷 造成 的 。 

e 根据 具体 观察 反复 地 进行 增 量 式 的 改动 ， 如 收集 新 数据 、 调 整 超 参数 或 改进 算 








我 们 将 使 用 街景 地 址 号 码 转录 系统 (Goodfellow et al., 2014d) 作为 一 个 运行 示 
例 。 该 应 用 的 目标 是 将 建筑 物 添加 到 谷歌 地 图 。 街 景 车 拍摄 建筑 物 ， 并 记录 与 每 张 
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建筑 照片 相关 的 GPS 坐标 。 卷 积 网 络 识别 每 张 照片 上 的 地 址 号 码 ， 由 谷歌 地 图 数据 
库 在 正确 的 位 置 添加 该 地 址 。 这 个 商业 应 用 是 一 个 很 好 的 示例 ， 它 的 开发 流程 遵循 
我 们 倡导 的 设计 方法 。 

我 们 现在 描述 这 个 过 程 中 的 每 一 个 步 又 。 











11.1 ”性 能 度量 


确定 目标 ， 即 使 用 什么 误差 度量 ， 是 必要 的 第 一 步 ， 因 为 误差 度量 将 指导 接 下 
来 的 所 有 工作 。 同 时 我 们 也 应 该 了 解 大 概 能 得 到 什么 级 别 的 目标 性 能 。 

值得 注意 的 是 对 于 大 多 数 应 用 而 言 ， 不 可 能 实现 绝对 零 误差 。 即 使 你 有 无 限 的 
训练 数据 ， 并 且 恢复 了 真正 的 概率 分 布 ， 贝 叶 斯 误差 仍 定义 了 能 达到 的 最 小 错误 率 。 
这 是 因为 输入 特征 可 能 无 法 包含 输出 变量 的 完整 信息 ， 或 是 因为 系统 可 能 本 质 上 是 
随机 的 。 当 然 我 们 还 会 受 限 于 有 限 的 训练 数据 。 

训练 数据 的 数量 会 因为 各 种 原因 受到 限制 。 当 目标 是 打造 现实 世界 中 最 好 的 产 
品 或 服务 时 , 我 们 通常 需要 收集 更 多 的 数据 , 但 必须 确定 进一步 减少 误差 的 价值 ,并 
与 收集 更 多 数据 的 成 本 做 权衡 。 数 据 收集 会 耗费 时 间 、 金 钱 ， 或 带 来 人 体 痛 苗 ( 例 
如 ,收集 人 体 医 疗 测 试 数据 )。 科研 中 ， 目 标 通常 是 在 某 个 确定 基准 下 探讨 哪个 算法 
Ug, 一般 会 固定 训练 集 ， 不 允许 收集 更 多 的 数据 。 

如 何 确定 合理 的 性 能 期 望 ? 在 学 术 界 ， 通 常 我 们 可 以 根据 先前 公布 的 基准 结 
来 估计 预期 错误 率 。 在 现实 世界 中 ， 一 个 应 用 的 错误 率 有 必要 是 安全 的 、 具 有 成 本 
效益 的 或 吸引 消费 者 的 。 一 旦 你 确定 了 想 要 达到 的 错误 率 ， 那 么 你 的 设计 将 由 如 何 
达到 这 个 错误 率 来 指导 。 

除了 需要 考虑 性 能 度量 之 外 ， 男 一 个 需要 考虑 的 是 度量 的 选择 。 我 们 有 几 种 不 
同 的 性 能 度量 ， 可 以 用 来 度量 一 个 含有 机 顺 学 习 组 件 的 完整 应 用 的 有 效 性 。 这 些 性 
能 度量 通常 不 同 于 训练 模型 的 代价 函数 。 如 第 5.1.2 节 所 述 ， 我 们 通常 会 度量 一 个 系 
统 的 准确 率 ， 或 等 价 地 ， 错 误 率 。 

然而 ， 许 多 应 用 需要 更 高 级 的 度量 。 

有 时 ,一 种 错误 可 能 会 比 男 一 种 错误 更 严重 。 例 如 ， 垃 圾 邮件 检测 系统 会 有 两 
种 错误 : 将 正常 邮件 错误 地 归 为 垃圾 邮件 ， 将 垃圾 邮件 错误 地 归 为 正常 邮件 。 阻 止 
正常 消息 比 允 许可 疑 消息 通过 粮 糕 得 多 。 我 们 希望 度量 某 种 形式 的 总 代价 ， 其 中 拦 
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截 正 常 邮件 比 允许 垃圾 邮件 通过 的 代价 更 高 ， 而 不 是 度量 垃圾 邮件 分 类 的 错误 率 。 
有 时 ， 我 们 需要 训练 检测 某 些 罕见 事件 的 二 元 分 类 器 。 例 如 ， 我 们 可 能 会 为 一 
种 罕见 疾病 设计 医疗 测试 。 假 设 每 一 百 万 人 中 只 有 一 人 患 病 。 我 们 只 需要 让 分 类 器 
一 直 报 告 没有 患者 ， 就 能 轻易 地 在 检测 任务 上 实现 99.999996 的 正确 率 。 显 然 ， 正 确 
率 很 难 描述 这 种 系统 的 性 能 。 解 决 这 个 问题 的 方法 是 度量 精度 ( precision ) 和 召回 
率 ( recall )。 精 度 是 模型 报告 的 检测 是 正确 的 比率 ， 而 召回 率 则 是 真实 事件 被 检测 
到 的 比率 。 检 测 器 永远 报告 没有 患者 ， 会 得 到 一 个 完美 的 精度 ， 但 召回 率 为 零 。 而 
报告 每 个 人 都 是 患者 的 检测 器 会 得 到 一 个 完美 的 召回 率 , 但 是 精度 会 等 于 人 群 中 患 
有 该 病 的 比例 (在 我 们 的 例子 是 0.0001%， 每 一 百 万 人 只 有 一 人 患 病 )。 当 使 用 精 
度 和 召回 率 时 ， 我 们 通常 会 画 PR. 曲线 (PR curve), y WRR, x 轴 表 示 召 
回 率 。 如 果 检 测 到 的 事件 发 生 了 ， 那 么 分 类 器 会 返回 一 个 较 高 的 得 分 。 例 如 ， 我 们 
将 前 馈 网 络 设计 为 检测 一 种 疾病 ， 估 计 一 个 医疗 结果 由 特征 x 表示 的 人 患 病 的 概率 
为 六 = P = 1 | 四。 每 当 这 个 得 分 超过 某 个 国 值 时 ， 我 们 报告 检测 结果 。 通 过 调 
整 闵 值 ， 我 们 能 权衡 精度 和 召回 率 。 在 很 多 情况 下 ， 我 们 希望 用 一 个 数 而 不 是 曲线 











来 概括 分 类 需 的 性 能 。 要 做 到 这 一 点 ， 我 们 可 以 将 精度 p 和 召回 率 r 转换 为 F 分 数 
( F-score ) 

Nr 

Ny (11.1) 


另 一 种 方法 是 报告 PR 曲线 下 方 的 总 面积 。 

在 一 些 应 用 中 ,机 絮 学 习 系 统 可 能 会 拒绝 做 出 判断 。 如 果 机 器 学 习 算 法 能 够 估 
计 所 作 判 断 的 置信 和 度 , 这 将 会 非常 有 用 , 特别 是 在 错误 判断 会 导致 严重 危害 ， 而 人 工 
操作 员 能 够 偶尔 接管 的 情况 下 。 街 景 转录 系统 可 以 作为 这 种 情况 的 一 个 示例 。 这 个 
任务 是 识别 照片 上 的 地 址 号 码 ， 将 照片 拍摄 地 点 对 应 到 地 图 上 的 地 址 。 如 果 地 图 是 
不 精确 的 ， 那 么 地 图 的 价值 会 严重 下 降 。 因 此 只 在 转录 正确 的 情况 下 添加 地 址 十 分 
重要 。 如 果 机 顺 学 习 系统 认为 它 不 太 能 像 人 一 样 正 确 地 转录 ， 那 么 最 好 办 法 当然 是 
让 人 来 转录 照片 。 当 然 ， 只 有 当 机 器 学习 系 统 能 够 大 量 降低 需要 人 工 操作 处 理 的 图 
片 时 ， 它 才 是 有 用 的 。 在 这 种 情况 下 ， 一 种 自然 的 性 能 度量 是 覆盖 (coverage). 4 
盖 是 机 器 学 习 系统 能 够 产生 响应 的 样本 所 占 的 比率 。 我 们 权衡 覆盖 和 精度 。 一 个 系 
统 可 以 通过 拒绝 处 理 任意 样本 的 方式 来 达到 10096 的 精度 ,但 是 覆盖 降 到 了 096. XJ 
于 街景 任务 ， 该 项 目的 目标 是 达到 人 类 级 别 的 转录 精度 ， 同 时 保持 95% 的 覆盖 。 在 
这 项 任务 中 ， 人 类 级 别 的 性 能 是 98% 的 精度 。 

还 有 许多 其 他 的 性 能 度量 。 例 如 ， 我 们 可 以 度量 点 击 率 、 收 集 用 户 满意 度 调 查 
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等 等 。 许 多 专业 的 应 用 领域 也 有 特定 的 标准 。 
最 重要 的 是 首先 要 确定 改进 哪个 性 能 度量 ， 然 后 专心 提高 性 能 度量 。 如 果 没 有 
明确 的 目标 ， 那么 我 们 很 难 判 断 机 器 学 习 系 统 上 的 改动 是 否 有 所 改进 。 








11.2 ”默认 的 基准 模型 


确定 性 能 度量 和 目标 后 ， 任 何 实 际 应 用 的 下 一 步 是 尽快 建立 一 个 合理 的 端 到 端 
的 系统 。 本 节 给 出 了 一 些 关于 在 不 同情 况 下 使 用 哪 种 算法 作为 第 一 个 基准 方法 推荐 。 
在 本 节 中 ， 我 们 提供 了 关于 不 同情 况 下 使 用 哪 种 算法 作为 第 一 基准 方法 的 推荐 。 值 
得 注意 的 是 ， 深 度 学 习 研 究 进 展 迅 速 ， 所 以 本 书 出 版 后 很 快 可 能 会 有 更 好 的 默认 算 
法 。 

根据 问题 的 复杂 性 ,项 目 开 始 时 可 能 无 需 使 用 深度 学 习 。 如 果 只 需 正确 地 选择 
几 个 线性 权重 就 可 能 解决 问题 ， 那 么 项 目 可 以 开始 于 一 个 简单 的 统计 模型 ， 如 逻辑 
回归 。 

如 果 问 题 属于 “AI- 完 全 ”类 的 ， 如 对 象 识别 、 语 音 识别 、 机 器 翻译 等 等 ， 那 么 
项 目 开 始 于 一 个 合适 的 深度 学 习 模 型 效果 会 比较 好 。 

首先 ， 根 据 数据 的 结构 选择 一 类 合适 的 模型 。 如 果 项 目 是 以 固定 大 小 的 向 量 作 
为 输入 的 监督 学 习 ， 那 么 可 以 使 用 全 连接 的 前 馈 网 络 。 如 果 输 入 有 已 知 的 拓扑 结构 
(例如 ， 输 入 是 图 像 )， 那 么 可 以 使 用 卷 积 网 络 。 在 这 些 情 况 下 ， 刚 开始 可 以 使 用 某 
些 分 段 线性 单元 (ReLU 或 者 其 扩展 ， 如 Leaky ReLU, PReLU 和 maxout )。 如 果 输 
和 人 或 输出 是 一 个 序列 ， 可 以 使 用 门 控 循 环 网 络 (LSTM 或 GRU )。 

具有 衰减 学 习 率 以 及 动量 的 SGD 是 优化 算法 一 个 合理 的 选择 (流行 的 衰减 方 
法 有 ， 衰 减 到 固定 最 低 学 习 率 的 线性 衰减 、 指 数 误 减 ， 或 每 次 发 生 验 证 错误 停 沸 时 
将 学 习 率 降低 2 — 10 倍 ， 这 些 衰减 方法 在 不 同 问题 上 好 坏 不 一 )。 男 一 个 非常 合理 
的 选择 是 Adam 算法 。 批 标准 化 对 优化 性 能 有 着 显著 的 影响 ， 特 别 是 对 卷 积 网 络 和 
具有 sigmoid 非 线性 函数 的 网 络 而 言 。 虽 然 在 最 初 的 基准 中 忽略 批 标 准 化 是 合理 的 ， 
然而 当 优化 似乎 出 现 问题 时 ， 应 该 立刻 使 用 批 标准 化 。 

除非 训练 集 包 含 数 千 万 以 及 更 多 的 样本 ， 否 则 项 目 应 该 在 一 开始 就 包含 一 些 
温和 的 正则 化 。 提 前 终止 也 被 普遍 采用 。Dropout 也 是 一 个 很 容易 实现 ， 且 兼容 很 
多 模型 和 训练 算法 的 出 色 正 则 化 项 。 批 标准 化 有 时 也 能 降低 泛 化 误差 ， 此 时 可 以 省 
略 Dropout 步骤， 因为 用 于 标准 化 变量 的 统计 量 估计 本 身 就 存在 噪声 。 
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如 果 我 们 的 任务 和 另 一 个 被 广泛 研究 的 任务 相似 ， 那 么 通过 复制 先前 研究 中 已 
知性 能 良好 的 模型 和 算法 ， 可 能 会 得 到 很 好 的 效果 。 甚 至 可 以 从 该 任务 中 复制 一 个 
训练 好 的 模型 。 例 如 , 通常 会 使 用 在 ImageNet 上 训练 好 的 卷 积 网 络 的 特征 来 解决 其 
他 计算 机 视觉 任务 (Girshick et al., 2015)。 

一 个 常见 问题 是 项 目 开始 时 是 否 使 用 无 监督 学 习 ， 我 们 将 在 第 三 部 分 进一步 探 
讨 这 个 问题 。 这 个 问题 和 特定 领域 有 关 。 在 某 些 领域 ， 比 如 自然 语言 处 理 ， 能 够 大 大 
受益 于 无 监督 学 习 技 术 ， 如 学 习 无 监督 词 般 入。 在 其 他 领域 , 如 计算 机 视觉 , 除非 是 
在 半 监 督 的 设 定 下 (标注 样本 数量 很 人 少 ) (Kingma et al., 2014; Rasmus et al., 2015), 
目前 无 监督 学 习 并 没有 带 来 益处 。 如 果 应 用 所 在 环境 中 ， 无 监督 学 习 被 认为 是 很 重 
要 的 , 那么 将 其 包含 在 第 一 个 端 到 端的 基准 中 。 否则 ， 只 有 在 解决 无 监督 问题 时 , 才 
会 第 一 次 尝试 时 使 用 无 监督 学 习 。 在 发 现 初始 基准 过 拟 合 的 时 候 ， 我 们 可 以 尝试 加 
人 无 监督 学 习 。 











11.3 ”决定 是 否 收集 更 多 数据 


在 建立 第 一 个 端 到 端的 系统 后 ， 就 可 以 度量 算法 性 能 并 决定 如 何 改进 算法 。 许 
多 机 器 学 习 新 手 都 妨 不 住 尝 试 很 多 不 同 的 算法 来 进行 改进 。 然 而 ， 收 集 更 多 的 数据 
往往 比 改 进 学 习 算 法 要 有 用 得 多 。 

怎样 判断 是 否 要 收集 更 多 的 数据 ? 首先， 确定 训练 集 上 的 性 能 是 否 可 接受 。 如 
果 模 型 在 训练 集 上 的 性 能 就 很 差 ， 学 习 算法 都 不 能 在 训练 集 上 学 习 出 良好 的 模型 ， 
那么 就 没 必 要 收集 更 多 的 数据 。 反 之 ， 可 以 尝试 增加 更 多 的 网 络 层 或 每 层 增加 更 多 
的 隐藏 单 元 ， 以 增加 模型 的 规模 。 此 外 ， 也 可 以 尝试 调整 学 习 率 等 超 参 数 的 措施 来 
改进 学 习 算 法 。 如 果 更 大 的 模型 和 仔细 调试 的 优化 算法 效果 不 佳 ， 那 么 问题 可 能 源 
自 训 练 数据 的 质量 。 数 据 可 能 含 太 多 噪声 ， 或 是 可 能 不 包含 预测 输出 所 需 的 正确 输 
入 。 这 意味 着 我 们 需要 重新 开始 ， 收 集 更 干净 的 数据 或 是 收集 特征 更 丰富 的 数据 集 。 

如 果 训 练 集 上 的 性 能 是 可 接受 的 , 那么 我 们 开始 度量 测试 集 上 的 性 能 。 如 果 测 试 
集 上 的 性 能 也 是 可 以 接受 的 , 那么 就 顺利 完成 了 。 如 果 测 试 集 上 的 性 能 比 训练 集 的 要 
差 得 多 ， 那 么 收集 更 多 的 数据 是 最 有 效 的 解决 方案 之 一 。 这 时 主要 的 考虑 是 收集 更 
多 数据 的 代价 和 可 行 性 ， 其 他 方法 降低 测试 误差 的 代价 和 可 行 性 ， 和 增加 数据 数量 
能 否 显著 提升 测试 集 性 能 。 在 拥有 百 万 甚至 上 亿 用 户 的 大 型 网 络 公司 ， 收 集 大 型 数 
据 集 是 可 行 的 ， 并 且 这 样 做 的 成 本 可 能 比 其 他 方法 要 少 很 多 ， 所 以 答案 几乎 总 是 收 
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集 更 多 的 训练 数据 。 例 如 ， 收 集 大 型 标注 数据 集 是 解决 对 象 识别 问题 的 主要 因素 之 
一 。 在 其 他 情况 下 ， 如 医疗 应 用 ,收集 更 多 的 数据 可 能 代价 很 高 或 者 不 可 行 。 一 个 可 
以 替代 的 简单 方法 是 降低 模型 大 小 或 是 改进 正则 化 〈 调 整 超 参 数 ， 如 权重 衰减 系数 ， 
或 是 加 入 正则 化 策略 ， 如 Dropout )。 如 果 调 整 正则 化 超 参数 后 ， 训 练 集 性 能 和 测试 
集 性 能 之 间 的 差距 还 是 不 可 接受 ， 那 么 收集 更 多 的 数据 是 可 取 的 。 

在 决定 是 否 收集 更 多 的 数据 时 ， 也 需要 确定 收集 多 少数 据 。 如 图 5.4 所 示 ， 绘 制 
曲线 显示 训练 集 规模 和 泛 化 误差 之 间 的 关系 是 很 有 帮助 的 。 根 据 走势 延伸 曲线 ， 可 
以 预测 还 需要 多 少 训练 数据 来 达到 一 定 的 性 能 。 通常， 加 入 总 数目 一 小 部 分 的 样本 
不 会 对 泛 化 误差 产生 显著 的 影响 。 因 此 ， 建 议 在 对 数 尺度 上 考虑 训练 集 的 大 小 ， 例 
如 在 后 续 的 实验 中 倍增 样本 数目 。 

如 果 收 集 更 多 的 数据 是 不 可 行 的 ， 那 么 改进 泛 化 误差 的 唯一 方法 是 改进 学 习 算 
法 本 身 。 这 属于 研究 领域 ， 并 非 对 应 用 实践 者 的 建议 。 














11.4 选择 超 参数 


大 部 分 深度 学 习 算 法 都 有 许多 超 参 数 来 控制 不 同方 面 的 算法 表现 。 有 些 超 参 
数 会 影响 算法 运行 的 时 间 和 存储 成 本 。 有 些 超 参数 会 影响 学 习 到 的 模型 质量 ， 以 及 
在 新 输入 上 推断 正确 结果 的 能 

有 两 种 选择 超 参数 的 基本 方法 : 手动 选择 和 自动 选择 。 手 动 选择 超 参 数 需要 了 
解 超 参 数 做 了 些 什么 ， 以 及 机 顺 学 习 模 型 如 何 才能 取得 良好 的 泛 化 。 自 动 选择 超 参 
数 算法 大 大 减少 了 解 这 些 想 法 的 需要 ， 但 它们 往往 需要 更 高 的 计算 成 本 。 








11.4.1 ”手动 调整 超 参数 


手动 设置 超 参数 , 我 们 必须 了 解 超 参 数 、 训 练 误差 、 泛 化 误差 和 计算 资源 ( 内 存 
和 运行 时 间 ) 之 间 的 关系 。 这 需要 切实 了 解 一 个 学 习 算 法 有 效 容量 的 基础 概念 ， 如 
第 五 章 所 描述 的 。 

手动 搜索 超 参数 的 目标 通常 是 最 小 化 受 限 于 运行 时 间 和 内 存 预 算 的 泛 化 误差 。 
我 们 不 去 探讨 如 何 确定 各 种 超 参 数 对 运行 时 间 和 内 存 的 影响 ， 因 为 这 高 度 依赖 于 平 
£s 


Ho 





手动 搜索 超 参 数 的 主要 目标 是 调整 模型 的 有 效 容量 以 匹配 任务 的 复杂 性 。 有 
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效 容量 受 限于 三 个 因素 : 模型 的 表示 容量 、 学 习 算 法 成 功 最 小 化 训练 模型 代价 函数 的 
能 力 以 及 代价 函数 和 训练 过 程 正则 化 模型 的 程度 。 具 有 更 多 网 络 层 ， 每 层 有 更 多 隐 
藏 单元 的 模型 具有 较 高 的 表示 能 力 一 一 能 够 表示 更 复杂 的 函数 。 然 而 ， 如 果 训练 算 
法 不 能 找到 某 个 合适 的 函数 来 最 小 化 训练 代价 ， 或 是 正则 化 项 ( 如 权重 衰减 ) 排除 
了 这 些 合适 的 函数 ， 那 么 即使 模型 的 表达 能 力 较 高 ， 也 不 能 学 习 出 合适 的 函数 。 

当 泛 化 误差 以 某 个 超 参数 为 变量 ， 作 为 函数 绘制 出 来 时 ， 通 常会 表现 为 U 形 曲 
线 ， 如 图 5.3 所 示 。 在 某 个 极端 情况 下 ， 超 参数 对 应 着 低 容 量 ， 并 且 泛 化 误差 由 于 训 
练 误差 较 大 而 很 高 。 这 便 是 欠 拟 合 的 情况 。 另 一 种 极端 情况 ， 超 参数 对 应 着 高 容量 ， 
并 且 泛 化 误差 由 于 训练 误差 和 测试 误差 之 间 的 差距 较 大 而 很 高 。 最 优 的 模型 容量 位 
于 曲线 中 间 的 某 个 位 置 ， 能 够 达到 最 低 可 能 的 泛 化 误差 ， 由 某 个 中 等 的 泛 化 误差 和 
某 个 中 等 的 训练 误差 相 加 构成 。 

对 于 某 些 超 参数 ， 当 超 参 数 数值 太 大 时 ,会 发 生 过 拟 合 。 例 如 中 间 层 隐藏 单元 的 
数量 ,增加 数量 能 提高 模型 的 容量 ， 容 易 发 生 过 拟 合 。 对 于 某 些 超 参数 ， 当 超 参数 数 
值 太 小 时 ， 也 会 发 生 过 拟 合 。 例 如 ， 最 小 的 权重 衰减 系数 允许 为 零 , 此 时 学 习 算法 具 
有 最 大 的 有 效 容量 ， 反 而 容易 过 拟 合 。 

并 非 每 个 超 参数 都 能 对 应 着 完整 的 U 形 曲线 。 很 多 超 参数 是 离散 的 ， 如 中 间 层 
单元 数目 或 是 maxout 单元 中 线性 元 件 的 数目 , 这 种 情况 只 能 沿 曲 线 探索 一 些 点 。 有 
些 超 参数 是 一 值 的 。 通 常 这 些 超 参数 用 来 指定 是 否 使 用 学 习 算法 中 的 一 些 可 选 部 分 ， 
如 预 处 理 步骤 减 去 均值 并 除 以 标准 差 来 标准 化 输入 特征 。 这 些 超 参 数 只 能 探索 曲线 
上 的 两 点 。 其 他 一 些 超 参数 可 能 会 有 最 小 值 或 最 大 值 ， 限 制 其 探索 曲线 的 某 些 部 分 。 
例如 ， 权 重 衰减 系数 最 小 是 零 。 这 意味 着 ,如果 权重 衰减 系数 为 零 时 模型 欠 拟 合 ， 屠 
么 我 们 将 无 法 通过 修改 权重 衰减 系数 探索 过 拟 合 区 域 。 换 言 之 ， 有 些 超 参 数 只 能 减 
少 模型 容量 。 

学 习 率 可 能 是 最 重要 的 超 参数 。 如 果 你 只 有 时 间 调整 一 个 超 参数 ， 那 就 调整 学 
SPR, 相 比 其 他 超 参数 , 它 以 一 种 更 复杂 的 方式 控制 模型 的 有 效 容量 一 一 当 学 习 率 适 
合 优化 问题 时 ， 模 型 的 有 效 容量 最 高 ， 此 时 学 习 率 是 正确 的 ， 既 不 是 特别 大 也 不 是 
寺 别 小 。 学 习 率 关于 训练 误差 具有 U 形 曲 线 ， 如 图 11.1 所 示 。 当 学 习 率 过 大 时 ， 梯 
度 下 降 可 能 会 不 经 意 地 增加 而 非 减少 训练 误差 。 在 理想 化 的 二 次 情况 下 ， 如 果 学 习 
率 是 最 佳 值 的 两 倍 大 时 ， 会 发 生 这 种 情况 (LeCun et aL, 1998a)。 当 学 习 率 太 小 ， 训 
练 不 仅 慢 ， 还 有 可 能 永久 停留 在 一 个 很 高 的 训练 误差 。 关 于 这 种 效应 ， 我 们 知之 其 
少 (不 会 发 生 于 一 个 凸 损失 函数 中 )。 
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图 11.1: 训练 误差 和 学 习 率 之 间 的 典型 关系 。 注 意 当 学 习 率 大 于 最 优 值 时 误差 会 有 显著 的 提升 。 此 
图 针对 固定 的 训练 时 间 ， 越 小 的 学 习 率 有 时 候 可 以 以 一 个 正比 于 学 习 率 减 小 量 的 因素 来 减 慢 训练 
过 程 。 泛 化 误差 也 会 得 到 类 似 的 曲线 ,由 于 正则 项 作用 在 学 习 率 过 大 或 过 小 处 比较 复杂 。 由 于 一 个 
糟糕 的 优化 从 某 种 程度 上 说 可 以 避免 过 拟 合 ， 即 使 是 训练 误差 相同 的 点 也 会 拥有 完全 不 同 的 泛 化 


误差 。 





















































调整 学 习 率 外 的 其 他 参数 时 ， 需 要 同时 监测 训练 误差 和 测试 误差 ， 以 判断 模型 
是 否 过 拟 合 或 欠 拟 合 ， 然 后 适当 调整 其 容量 。 

如 果 训 练 集 错误 率 大 于 目标 错误 率 ， 那 么 只 能 增加 模型 容量 以 改进 模型 。 如 果 
没有 使 用 正则 化 ， 并 且 确 信 优 化 算法 正确 运行 ， 那么 有 必要 添加 更 多 的 网 络 层 或 隐 
藏 单元 。 然 而， 令 人 遗憾 的 是 ， 这 增加 了 模型 的 计算 代价 。 

如 果 测 试 集 错误 率 大 于 目标 错误 率 ， 那 么 可 以 采取 两 个 方法 。 测 试 误差 是 训练 
误差 和 测试 误差 之 间 差 距 与 训练 误差 的 总 和 。 寻 找 最 佳 的 测试 误差 需要 权衡 这 些 数 
值 。 当 训练 误差 较 小 ( 因此 容量 较 大 )， 测 试 误差 主要 取决 于 训练 误差 和 测试 误差 之 
间 的 差距 时 ， 通 常 神经 网 络 效 果 最 好 。 此 时 目标 是 缩小 这 一 差距 ， 使 训练 误差 的 增 
长 速率 不 快 于 差距 减 小 的 速率 。 要 减少 这 个 差距 ， 我 们 可 以 改变 正则 化 超 参 数 ， 以 
减少 有 效 的 模型 容量 ， 如 添加 Dropout 或 权重 衰减 策略 。 通 常 ， 最 佳 性 能 来 自 正 则 
化 得 很 好 的 大 规模 模型 ， 比 如 使 用 Dropout 的 神经 网 络 。 

大 部 分 超 参 数 可 以 通过 推理 其 是 否 增加 或 减少 模型 容量 来 设置 。 部 分 示例 如 
表 11.1 所 示 。 

手动 调整 超 参 数 时 , 不 要 忘记 最 终 目 标 : 提升 测试 集 性 能 。 加 入 正则 化 只 是 实现 
这 个 目标 的 一 种 方法 。 只 要 训练 误差 低 ， 随 时 都 可 以 通过 收集 更 多 的 训练 数据 来 减 
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超 参 数 容 量 何 时 | 原因 注意 事项 
增加 
隐藏 单元 数量 增加 增加 隐藏 单元 数量 会 增加 模 | 几乎 模型 每 个 操作 所 需 的 时 
型 的 表示 能 力 间 和 内 存 代价 都 会 随 隐藏 单 
元 数量 的 增加 而 增加 。 
学 习 率 调 至 最 优 | 不 正确 的 学 习 速 率 ， 不 管 是 
太 高 还 是 太 低 都 会 由 于 优化 
失败 而 导致 低 有 效 容量 的 模 
型 。 
卷 积 核 宽度 增加 增加 卷 积 核 宽度 会 增加 模型 | 较 宽 的 卷 积 核 导致 较 守 的 输 
的 参数 数量 。 HRT, BAB EAD Bak ct ER 
充 减 少 此 影响 ， 和 否则 会 降低 
模型 容量 。 较 宽 的 卷 积 核 需 
要 更 多 的 内 存 存储 参数 ， 
会 增加 运行 时 间 ， 但 较 窗 的 
输 ! ' 会 降低 内 存 代 价 。 
隐 式 零 填 充 增加 在 卷 积 之 前 隐 式 添加 零 能 保 | 大 多 数 操作 的 时 间 和 内 存 代 
持 较 大 尺寸 的 表示 。 价 会 增加 。 
权重 衰减 系数 降低 降低 权重 衰减 系数 使 得 模型 
参数 可 以 自由 地 变 大 。 
Dropout 比率 降低 浪 少 地 丢弃 单元 可 以 更 多 地 


少 泛 化 误差 。 实 践 中 能 够 确保 学 习 有 效 的 的 暴力 方法 就 是 不 断 提 
直到 解决 问题 。 这 种 做 法 增加 了 训练 和 推断 的 计算 代价 ， 所 以 只 有 在 拥 


RINK, 








让 单元 彼此 “协力 ”来 适应 训 








表 11.1: 各 种 超 参数 对 模型 容量 的 影响 。 








高 模型 容量 和 训练 


有 足够 资源 时 才 是 可 行 的。 原则 上 ， 这 种 做 法 可 能 会 因为 优化 难度 提高 而 失败 ， 但 


对 于 许多 问题 而 言 ， 优 化 似乎 并 没有 成 为 一 个 显著 的 隐 碍 ， 当 然 ， 前 # 


适 的 模型 。 


11.4.2 


理想 的 学 习 算法 应 
需要 手动 调整 超 参 数 。 


自动 超 参 数 优化 算法 





该 是 只 需 
一 些 流 行 
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提 是 选择 了 合 


要 输入 一 个 数据 集 ， 就 可 以 输出 学 习 的 函数 ， 而 不 
的 学 习 算 法 ， 如 逻辑 回归 和 支持 向 量 机 ， 流 行 的 部 
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分 原因 是 这 类 算法 只 有 一 到 两 个 超 参 数 需要 调整 ， 它 们 也 能 表现 出 不 错 的 性 能 。 有 
些 情况 下 ， 所 需 调 整 的 超 参 数 数量 较 少 时 ， 神 经 网 络 可 以 表现 出 不 错 的 性 能 ; 但 超 
参数 数量 有 几 十 甚至 更 多 时 ， 效 果 会 提升 得 更 加 明显 。 当 使 用 者 有 一 个 很 好 的 初始 
值 ， 例 如 由 在 相同 类 型 的 应 用 和 架构 上 具有 经 验 的 人 确定 初始 值 ， 或 者 使 用 者 在 相 
似 问 题 上 具有 几 个 月 甚至 几 年 的 神经 网 络 超 参 数 调整 经 验 ， 那 么 手动 调整 超 参数 能 
有 很 好 的 效果 。 然 而 ， 对 于 很 多 应 用 而 言 ， 这 些 起 点 都 不 可 用 。 在 这 些 情况 下 ， 自 动 
算法 可 以 找到 合适 的 超 参数 。 

如 果 我 们 仔细 想 想 使 用 者 搜索 学 习 算 法 合适 超 参数 的 方式 ， 我 们 会 意识 到 这 其 
实 是 一 种 优化 : 我 们 在 试图 寻找 超 参数 来 优化 目标 函数 ， 例 如 验证 误差 ， 有 时 还 会 
有 一 些 约束 (如 训练 时 间 ， 内 存 或 识别 时 间 的 预算 )。 因 此 ， 原 则 上 有 可 能 开发 出 封 
装 学 习 算 法 的 超 参 数 优化 (hyperparameter optimization ) 算法 ， 并 选择 其 超 参 数 ， 
从 而 使 用 者 不 需要 指定 学 习 算法 的 超 参数 。 令 人 遗憾 的 是 ， 超 参数 优化 算法 往往 有 
自己 的 超 参数 ， 如 学 习 算法 的 每 个 超 参 数 应 该 被 探索 的 值 的 范围 。 然 而 , 这 些 次 级 超 
参数 通常 很 容易 选择 ， 这 是 说 ， 相 同 的 次 级 超 参 数 能 够 很 多 不 同 的 问题 上 具有 良好 
的 性 能 。 

















11.4.3 ”网 格 搜 索 


当 有 三 个 或 更 少 的 超 参数 时 ,常见 的 超 参 数 搜索 方法 是 网 格 搜索 (grid search )。 
对 于 每 个 超 参 数 ， 使 用 者 选择 一 个 较 小 的 有 限 值 集 去 探索 。 然 后 ， 这 些 超 参数 笛 卡 
尔 乘积 得 到 一 组 组 超 参 数 ， 网 格 搜索 使 用 每 组 超 参 数 训练 模型 。 挑 选 验 证 集 误差 最 
小 的 超 参数 作为 最 好 的 超 参数 。 如 图 11.2 所 示 超 参数 值 的 网 络 。 

应 该 如 何 选择 搜索 集合 的 范围 呢 ? 在 超 参数 是 数值 (有 序 ) 的 情况 下 ， 每 个 列 
表 的 最 小 和 最 大 的 元 素 可 以 基于 先前 相似 实验 的 经 验 保守 地 挑选 出 来 ， 以 确保 最 优 
解 非常 可 能 在 所 选 范围 内 。 通 常 ， 网 格 搜索 大 约会 在 对 数 尺 度 (logarithmic scale ) 
下 挑选 合适 的 值 ， 例 如 ， 一 个 学 习 率 的 取 值 集合 是 (0.1,0.01, 107°, 10-4, 10-5}， 或 
者 隐藏 单元 数目 的 取 值 集合 {50, 100, 200, 500, 1000, 2000}。 

通常 重复 进行 网 格 搜索 时 ， 效 果 会 最 好 。 例 如 ， 假 设 我 们 在 集合 {-1,0,1} 上 网 
格 搜索 超 参 数 w。 如 果 找 到 的 最 佳 值 是 1， 那 么 说 明 我 们 低估 了 最 优 值 a 所 在 的 范 
围 ， 应 该 改变 搜索 格 点 ,例如 在 集合 {1, 2, 3} 中 搜索 。 如 果 最 佳 值 是 0， 那 么 我 们 不 
妨 通过 细 化 搜索 范围 以 改进 估计 ， 在 集合 {一 0.1, 0, 0.1} 上 进行 网 格 搜索 。 


网 格 搜 索 带 来 的 一 个 明显 问题 是 , 计算 代价 会 随 着 超 参数 数量 呈 指 数 级 增长 。 如 
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图 11.2: 网 格 搜索 和 随机 搜索 的 比较 。 为 了 方便 地 说 明 , 我 们 只 展示 两 个 超 参 数 的 例子 ， 但 是 我 们 
关注 的 问题 中 超 参 数 个 数 通 常会 更 多 。[( 左 ) 为 了 实现 网 格 搜索 ， 我 们 为 每 个 超 参数 提供 了 一 个 值 
的 集合 。 搜 索 算法 对 每 一 种 在 这 些 集 合 的 交叉 积 中 的 超 参 数组 合 进行 训练 。( 右 ) 为 了 实现 随机 搜 
RB, 我 们 给 联合 超 参数 赋予 了 一 个 概率 分 布 。 通 常 超 参数 之 间 是 相互 独立 的 。 常 见 的 这 种 分 布 的 选 
择 是 均匀 分 布 或 者 是 对 数 均 匀 ( 从 对 数 均匀 分 布 中 抽样 ， 就 是 对 从 均匀 分 布 中 抽取 的 样本 进行 指 
数 运算 ) 的 。 然 后 这 些 搜索 算法 从 联合 的 超 参 数 空间 中 采样 ， 然 后 运行 每 一 个 样本 。 网 格 搜索 和 随 
机 搜索 都 运行 了 验证 集 上 的 误差 并 返回 了 最 优 的 解 。 这 个 图 说 明了 通常 只 有 一 个 超 参数 对 结果 有 
着 重要 的 影响 。 在 这 个 例子 中 ， 只 有 水 平 轴 上 的 超 参数 对 结果 有 重要 的 作用 。 网 格 搜索 将 大 量 的 计 
算 浪 费 在 了 指数 量 级 的 对 结果 无 影响 的 超 参数 中 ， 相 比 之 下 随机 搜索 几乎 每 次 测试 都 测试 了 对 结 
果 有 影响 的 每 个 超 参数 的 独一无二 的 值 。 此 图 经 Bergstra and Bengio (2011) 允许 转载 。 
























































RA m 个 超 参 数 ， 每 个 最 多 取 n 个 值 ， 那 么 训练 和 估计 所 需 的 试验 数 将 是 O(nm)。 
我 们 可 以 并 行 地 进行 实验 ， 并 且 并 行 要 求 十 分 宽松 〈 进 行 不 同 搜索 的 机 器 之 间 几 乎 
没有 必要 进行 通信 ) 令 人 遗憾 的 是 ， 由 于 网 格 搜索 指数 级 增长 计算 代价 ， 即 使 是 并 
行 ， 我 们 也 无 法 提供 令 人 满意 的 搜索 规模 。 


11.4.4 ”随机 搜索 
幸运 的 是 ， 有 一 个 替代 网 格 搜索 的 方法 , 并且 编程 简单 ， 使 用 更 方便 ， 能 更 快 地 
收敛 到 超 参 数 的 良好 取 值 ， 随 机 搜索 (Bergstra and Bengio, 2012). 


随机 搜索 过 程 如 下 。 首先 , 我 们 为 每 个 超 参数 定义 一 个 边缘 分 布 , 例如 , Bernoulli 
分 布 或 范畴 分 布 〈 分 别 对 应 着 二 元 超 参 数 或 离散 超 参 数 )， 或 者 对 数 尺度 上 的 均匀 分 
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布 《 对 应 着 正 实 值 超 参数 )。 例 如 ， 


log learning rate ~ u(—1, —5), (11.2) 


learning rate = ]()!o8-lesrning.rete, (11.3) 


HP ula, b) 表示 区 间 (a,b) 上 均匀 采样 的 样本 .类 似 地 ,log_number_ of hidden units 
可 以 从 u(log(50), log(2000)) 上 采样 。 


与 网 格 搜 索 不 同 ， 我 们 不 需要 离散 化 超 参 数 的 值 。 这 允许 我 们 在 一 个 更 大 的 集 
合 上 进行 搜索 ， 而 不 产生 额外 的 计算 代价 。 实 际 上 ， 如 图 11.2 所 示 ， 当 有 几 个 超 参 
数 对 性 能 度量 没有 显著 影响 时 ， 随 机 搜索 相 比 于 网 格 搜索 指数 级 地 高 效 。Bergstra 
and Bengio (2012) 进行 了 详细 的 研究 并 发 现 相 比 于 网 格 搜索 ， 随 机 搜索 能 够 更 快 地 
减 小 验证 集 误差 〈 就 每 个 模型 运行 的 试验 数 而 言 )。 

与 网 格 搜 索 一 样 ， 我 们 通常 会 重复 运行 不 同 版 本 的 随机 搜索 ， 以 基于 前 一 次 运 
行 的 结果 改进 下 一 次 搜索 。 

随机 搜索 能 比 网 格 搜索 更 快 地 找到 良好 超 参数 的 原因 是 ， 没 有 浪费 的 实验 ， 不 
像 网 格 搜索 有 时 会 对 一 个 超 参数 的 两 个 不 同 值 《给 定 其 他 超 参数 值 不 变 ) 给 出 相同 
结果 。 在 网 格 搜索 中 , 其 他 超 参数 将 在 这 两 次 实验 中 拥有 相同 的 值 , 而 在 随机 搜索 中 ， 
它们 通常 会 具有 不 同 的 值 。 因 此 ， 如 果 这 两 个 值 的 变化 所 对 应 的 验证 集 误差 没有 明 
显 区 别 的 话 ， 网 格 搜索 没有 必要 重复 两 个 等 价 的 实验 ， 而 随机 搜索 仍然 会 对 其 他 超 
参数 进行 两 次 独立 地 探索 。 


11.4.5 “基于 模型 的 超 参数 优化 


超 参数 搜索 问题 可 以 转化 为 一 个 优化 问题 。 决策 变量 是 超 参 数 。 优 化 的 代价 是 超 
参数 训练 出 来 的 模型 在 验证 集 上 的 误差 。 在 简化 的 设 定 下 , 可 以 计算 验证 集 上 可 导 误 
差 饵 数 关 于 超 参 数 的 梯度 ， 然 后 我 们 遵循 这 个 梯度 更 新 (Bengio et al., 1999; Bengio, 
2000; Maclaurin et aL, 2015)。 令 人 遗憾 的 是 ， 在 大 多 数 实 际 设 定 中 ， 这 个 梯度 是 
不 可 用 的 。 这 可 能 是 因为 其 高 额 的 计算 代价 和 存储 成 本 ， 也 可 能 是 因为 验证 集 误差 
在 超 参 数 上 本 质 上 不 可 导 ， 例 如 超 参数 是 离散 值 的 情况 。 

为 了 弥补 梯度 的 缺失 ， 我 们 可 以 对 验证 集 误 差 建 模 ， 然 后 通过 优化 该 模型 来 
提出 新 的 超 参数 猜想 。 大 部 分 基于 模型 的 超 参数 搜索 算法 ， 都 是 使 用 贝 叶 斯 回归 模 
型 来 估计 每 个 超 参数 的 验证 集 误 差 期 望 和 该 期 望 的 不 确定 性 。 因 此 ， 优 化 涉及 到 探 
R (探索 高 度 不 确定 的 超 参 数 ， 可 能 带 来 显著 的 效果 提升 ， 也 可 能 效果 很 差 ) 和 
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使 用 (使 用 已 经 确信 效果 不 错 的 超 参数 一 一 通常 是 先前 见 过 的 非常 熟悉 的 超 参数 ) 
之 间 的 权衡 。 关 于 超 参 数 优化 的 最 前 沿 方 法 还 包括 Spearmint (Snoek et al., 2012), 
TPE (Bergstra et al., 2011) 和 SMAC (Hutter et al., 2011). 

目前 ， 我 们 无 法 明确 确定 ， 贝 叶 斯 超 参 数 优 化 是 否 是 一 个 能 够 实现 更 好 深度 学 
习 结 果 或 是 能 够 事半功倍 的 成 熟 工具 。 贝 叶 斯 超 参 数 优 化 有 时 表现 得 像 人 类 专家 ， 
能 够 在 有 些 问题 上 取得 很 好 的 效果 ,但 有 时 又 会 在 某 些 问题 上 发 生 灾难 性 的 失误 。 
看 看 它 是 否 适用 于 一 个 特定 的 问题 是 值得 尝试 的 ,但 目前 该 方法 还 不 够 成 熟 或 可 靠 。 
就 像 所 说 的 那样 ， 超 参数 优化 是 一 个 重要 的 研究 领域 ,通常 主要 受 深 度 学 习 所 需 驱 
动 ， 但 是 它 不 仪 能 贡献 于 整个 机 融 学 习 领 域 ， 还 能 贡献 于 一 般 的 工程 学 。 

大 部 分 超 参数 优化 算法 比 随机 搜索 更 复杂 ， 并 且 具 有 一 个 共同 的 缺点 ， 在 它们 
能 够 从 实验 中 提取 任何 信息 之 前 ， 它 们 需要 运行 完整 的 训练 实验 。 相 比 于 人 类 实践 
者 手动 搜索 ， 考 虑 实验 早期 可 以 收集 的 信息 量 ， 这 种 方法 是 相当 低 效 的 ， 因 为 手动 
搜索 通常 可 以 很 早 判 断 出 某 组 超 参 数 是 否 是 完全 病态 的 。Swersky et al. (2014) 提出 
了 一 个 可 以 维护 多 个 实验 的 早期 版 本 算法 。 在 不 同 的 时 间 点 ， 超 参数 优化 算法 可 以 
选择 开启 一 个 新 实验 , “冻结 ”正在 和 运行 但 希望 不 大 的 实验 ,或 是 “解冻 ”并 恢复 早 
期 被 冻结 的 ， 但 现在 根据 更 多 信息 后 又 有 希望 的 实验 。 





























11.5 ”调试 策略 


当 一 个 机 器 学 习 系 统 效 果 不 好 时 ， 通 常 很 难 判 断 效 果 不 好 的 原因 是 算法 本 喘 ， 
还 是 算法 实现 错误 。 由 于 各 种 原因 ， 机 天 学 习 系统 很 难 调试 。 

在 大 多 数 情 况 下 ， 我 们 不 能 提前 知道 算法 的 行为 。 事 实 上 ， 使 用 机 融 学 习 的 整 
个 出 发 点 是 ， 它 会 发 现 一 些 我 们 自己 无 法 发 现 的 有 用 行为 。 如 果 我 们 在 一 个 新 的 分 
类 任务 上 训练 一 个 神经 网 络 ， 它 达到 596 的 测试 误差 ， 我 们 没 法 直接 知道 这 是 期 望 
的 结果 ， 还 是 次 优 的 结 

另 一 个 难点 是 ， 大 部 分 机 器 学 习 模 型 有 多 个 自 适 应 的 部 分 。 如 果 一 个 部 分 失效 
了 ， 其 他 部 分 仍然 可 以 自 适 应 ， 并 获得 大 致 可 接受 的 性 能 。 例 如 ， 假 设 我 们 正在 训 
练 多 层 神经 网 络 ， 其 中 参数 为 权重 W 和 侦 置 pb。 进一步 假设 ， 我 们 单独 手动 实现 了 
每 个 参数 的 梯度 下 降 规 则 。 而 我 们 在 侦 置 更 新 时 犯 了 一 个 错误 : 

















b+ b—-a, (11.4) 


ww ai bbt.com (1 HL EL BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
11.5 调试 策略 371 











其 中 a 是 学 习 率 。 这 个 错误 更 新 没有 使 用 梯度 。 它 会 导致 俩 置 在 整个 学 习 中 不 断 变 
为 负 值 ,对 于 一 个 学 习 算 法 来 说 这 显然 是 错误 的 。 然 而 只 是 检查 模型 输出 的 话 , 该 错 
误 可 能 并 不 是 显而易见 的 。 根 据 输入 的 分 布 ， 权 重 可 能 可 以 自 适 应 地 补偿 负 的 偏 置 。 

大 部 分 神经 网 络 的 调试 策略 都 是 解决 这 两 个 难题 的 一 个 或 两 个 。 我 们 可 以 设计 
一 种 足够 简单 的 情况 ， 能 够 提前 得 到 正确 结果 ， 判 断 模型 预测 是 否 与 之 相符 ;我 们 
也 可 以 设计 一 个 测试 ， 独 立 检 查 神经 网 络 实现 的 各 个 部 分 。 

一 些 重要 的 调试 检测 如 下 所 列 。 

可 视 化 计 工 中 模型 的 行为 : 当 训练 模型 检测 图 像 中 的 对 象 时 ， 查 看 一 些 模型 检 
测 到 部 分 重 欠 的 图 像 。 在 训练 语音 生成 模型 时 ,试听 一 些 生 成 的 语音 样本 。 这 似乎 
是 显而易见 的 ， 但 在 实际 中 很 容易 只 注意 量化 性 能 度量 ， 如 准确 率 或 对 数 似 然 。 直 
接 观 察 机 器 学 习 模 型 运行 其 任务 ， 有 助 于 确定 其 达到 的 量化 性 能 数据 是 否 看 上 去 合 
理 。 错 误 评 佑 模型 性 能 可 能 是 最 具 破 坏 性 的 错误 之 一 ， 因 为 它们 会 使 你 在 系统 出 问 
题 时 误 以 为 系统 运行 良好 。 

可 视 化 最 严重 的 错误 : 大 多 数 模型 能 够 输出 运行 任务 时 的 某 种 置信 和 度量 。 例 如， 
基于 softmax 函数 输出 层 的 分 类 噩 给 每 个 类 分 配 一 个 概率 。 因 此 ， 分 配给 最 有 可 能 
的 类 的 概率 给 出 了 模型 在 其 分 类 决定 上 的 置信 估计 值 。 通常， 相 比 于 正确 预测 的 概 
率 最 大 似 然 训练 会 略 有 高 佑 。 但 是 由 于 实际 上 模型 的 较 小 概率 不 太 可 能 对 应 着 正确 
的 标签 ， 因 此 它们 在 一 定 意义 上 还 是 有 些 用 的 。 通 过 查看 训练 集中 很 难 正确 建 模 的 
样本 , 通常 可 以 发 现 该 数据 预 处 理 或 者 标记 方式 的 问题 。 例 如, 街景 转录 系统 原本 有 
个 问题 是 ， 地 址 号 码 检测 系统 会 将 图 像 裁 前 得 过 于 紧密 ， 而 省 略 掉 了 一 些 数字 。 然 
后 转录 网 络 会 给 这 些 图 像 的 正确 答案 分 配 非常 低 的 概率 。 将 图 像 排序 ， 确 定 置 信和 度 
最 高 的 错误 ,显示 系 统 的 裁 脐 有 问题 。 修 改 检测 系统 裁剪 更 宽 的 图 像 ， 从 而 使 整个 
系统 获得 更 好 的 性 能 ,但 是 转录 网 络 需要 能 够 处 理 地 址 号 码 中 位 置 和 范围 更 大 变化 
的 情况 。 

根据 训练 和 测试 误差 检测 软件 : 我 们 往往 很 难 确定 底层 软件 是 否 是 正确 实现 。 
训练 和 测试 误差 能 够 提供 一 些 线索 。 如 果 训 练 误差 较 低 , 但 是 测试 误差 较 高 , 那么 很 
有 可 能 训练 过 程 是 在 正常 运行 ， 但 模型 由 于 算法 原因 过 拟 合 了 。 另 一 种 可 能 是 ， 测 
试 误差 没有 被 正确 地 度量 ， 可 能 是 由 于 训练 后 保存 模型 再 重 载 去 度量 测试 集 时 出 现 
问题 ， 或 者 是 因为 测试 数据 和 训练 数据 预 处 理 的 方式 不 同 。 如 果 训 练 和 测试 误差 都 
很 高 ， 那 么 很 难 确定 是 软件 错误 ， 还 是 由 于 算法 原因 模型 欠 拟 合 。 这 种 情况 需要 进 
一 步 的 测试 ， 如 下 面 所 述 。 
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拟 合 极 小 的 数据 集 : 当 训 练 集 上 有 很 大 的 误差 时 , 我 们 需要 确定 问题 是 真正 的 欠 
拟 合 ， 还 是 软件 错误 。 通 常 ， 即 使 是 小 模型 也 可 以 保证 很 好 地 拟 合 一 个 足够 小 的 数 
据 集 。 例 如 ， 只 有 一 个 样本 的 分 类 数据 可 以 通过 正确 设置 输出 层 的 偏 置 来 拟 合 。 通 
常 ， 如 果 不 能 训练 一 个 分 类 需 来 正确 标注 一 个 单独 的 样本 ， 或 不 能 训练 一 个 自 编码 
器 来 成 功 地 精准 再 现 一 个 单独 的 样本 ， 或 不 能 训练 一 个 生成 模型 来 一 致 地 生成 一 个 
单独 的 样本 ， 那 么 很 有 可 能 是 由 于 软件 错误 阻止 训练 集 上 的 成 功 优化 。 此 测试 可 以 
扩展 到 只 有 少量 样本 的 小 数据 集 上 。 

比较 反 向 传播 导数 和 数值 导数 : 如 果 读 者 正在 使 用 一 个 需要 实现 梯度 计算 的 软 
HER, 或 者 在 添加 一 个 新 操作 到 求 导 库 中 ， 必 须 定 义 它 的 bprop WE, AAT IL 
的 错误 原因 是 没 能 正确 地 实现 梯度 表达 。 验 证 这 些 求 导 正确 性 的 一 种 方法 是 比较 实 
现 的 自动 求 导 和 通过 有 限 差分 (finite difference ) 计算 的 导数 。 因 为 

f(x €) — f(x) 




















F(x) = lim ~—~———,, (11.5) 
我 们 可 以 使 用 小 的 、 有 限 的 e 近似 导数 : 
f(a)» Het Ma) (11.6) 
我 们 可 以 使 用 中 心 差分 (centered difference ) 提高 近似 的 准确 率 : 
fü) e deas anim 3 (117) 
扰动 大 小 。 必须 足够 大 ， 以 确保 该 扰动 不 会 由 于 数值 计算 的 有 限 精 度 问题 产生 舍 入 


误差 。 
通常 ， 我 们 会 测试 向 量 值 隙 数 g : R™ — R” 的 梯度 或 Jacobian 和 矩阵 。 邻 人 遗憾 
的 是 ， 有 限 差分 只 允许 我 们 每 次 计算 一 个 导数 。 我 们 可 以 使 用 有 限 差分 mm 次 评估 
9 的 所 有 偏 导 数 ， 也 可 以 将 该 测试 应 用 于 一 个 新 函数 (在 函数 9 的 输入 输出 都 加 上 
随机 投影 ). 例如 ,我 们 可 以 将 导数 实现 的 测试 用 于 函数 f(x) = wig(vx), AP u fll 
v 是 随机 向 量 。 正 确 计 算 f' (2) 要求 能 够 正确 地 通过 9 反问 传播 ,但 是 使 用 有 限 差 
分 能 够 高 效 地 计算 ， 因 为 f 只 有 一 个 输入 和 一 个 输出 。 通 常 ， 一 个 好 的 方法 是 在 多 
个 久 值 和 w 值 上 重复 这 个 测试 ， 可 以 减少 测试 忽略 了 垂直 于 随机 投影 的 错误 的 几率 。 
如 果 我 们 可 以 在 复数 上 进行 数值 计算 ,那么 使 用 复数 作为 函数 的 输入 会 有 非常 
高 效 的 数值 方法 估算 梯度 (Squire and Trapp, 1998)。 该 方法 基于 如 下 观察 
f(x ^ie) = f(x) + tef'(a) +02), (118) 


FE) p(@)+0(@), — are) 





real( f(x + ie)) = f(x) + O(e*), image( 
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EP i= V-1。 和 上 面 的 实 值 情 况 不 同 ， 这 里 不 存在 消除 影响 ， 因 为 我 们 对 f 在 不 
同 点 上 计算 差分 。 因 此 我 们 可 以 使 用 很 小 的 es， 比如 e = 10-150， 其 中 误差 Ole) 对 
所 有 实用 目标 都 是 微不足道 的 。 

监控 激活 函数 值 和 梯度 的 直方 图 : 可 视 化 神经 网 络 在 大 量 训练 迭代 后 (也许 是 
一 个 轮 ) 收集 到 的 激活 函数 值 和 梯度 的 统计 量 往往 是 有 用 的 。 隐 藏 单元 的 预 激活 值 
可 以 告诉 我 们 该 单元 是 否 饮 和， 或 者 它们 饱和 的 频率 如 何 。 例 如 ， 对 于 整流 器 ， 它 
们 多 久 关 一 次 ?是 否 有 单元 一 直 关 闭 ? 对 于 双 曲 正切 单元 而 言 ， 预 激活 绝对 值 的 平 
均值 可 以 告诉 我 们 该 单元 的 饱和 程度 。 在 深度 网 络 中 ,传播 梯 度 的 快速 增长 或 快速 
消失 ， 可 能 会 阻碍 优化 过 程 。 最 后 ， 比 较 参 数 梯度 和 参数 的 量 级 也 是 有 帮助 的 。 正 
如 (Bottou, 2015) 所 建议 的 ， 我 们 希望 参数 在 一 个 小 批量 更 新 中 变化 的 幅度 是 参数 
EME 1% 这 样 的 级 别 ， 而 不 是 5096 或 者 0.001% (这 会 导致 参数 移动 得 太 慢 )。 也 有 
可 能 是 某 些 参数 以 良好 的 步 长 移动 ， 而 男 一 些 停 小。 如 果 数 据 是 稀 玖 的 ( 比如 自然 
语言 )， 有 些 参数 可 能 很 少 更 新 ， 检 测 它们 变化 时 应 该 记 住 这 一 点 。 

最 后 ， 许 多 深度 学 习 算 法 为 每 一 步 产 生 的 结果 提供 了 某 种 保证 。 例 如 ， 在 第 三 
部 分 ， 我 们 将 看 到 一 些 使 用 代数 解决 优化 问题 的 近似 推断 算法 。 通 常 ， 这 些 可 以 通 
过 测试 它们 的 每 个 保证 来 调试 。 某 些 优 化 算法 提供 的 保证 包括 ， 目 标 函 数值 在 算法 
的 迭代 步 中 不 会 增加 ， 某 些 变 量 的 导数 在 算法 的 每 一 步 中 都 是 零 ， 所 有 变量 的 梯度 
在 收敛 时 会 变 为 零 。 通 常 ， 由 于 舍 人 人 误差， 这 些 条 件 不 会 在 数字 计算 机 上 完全 成 立 ， 
因此 调试 测试 应 该 包含 一 些 容 差 参数 。 
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为 了 端 到 端的 说 明 如 何在 实践 中 应 用 我 们 的 设计 方法 论 ， 我 们 从 设计 深度 学 
习 组 件 出 发 ， 简 单 地 介绍 下 街景 转录 系统 。 显 然 , 整个 系统 的 许多 其 他 组 件 ， 如 街景 
车 、 数 据 库 设 施 等 等 ， 也 是 极其 重要 的 。 

从 机 器 学 习 任 务 的 视角 出 发 ， 首 先 这 个 过 程 要 采集 数据 。 街 景 车 收集 原始 数据 ， 
然后 操作 员 手 动 提供 标签 。 转 录 任务 开始 前 有 大 量 的 数据 人 处理 工作 ， 包 括 在 转录 前 
使 用 其 他 机 器 学 习 技 术 探 测 房屋 号 码 。 

转录 项 目 开 始 于 性 能 度量 的 选择 和 对 这 些 度量 的 期 望 值 。 一 个 重要 的 总 原则 是 
度量 的 选择 要 符合 项 目的 业务 目标 。 因 为 地 图 只 有 是 高 准确 率 时 才 有 用 ， 所 以 为 这 
个 项 目 设 置 高 准确 率 的 要 求 非常 重要 。 上 有 具体 地 ， 目 标 是 达到 人 类 水 平 ，98% 的 准确 
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率 。 这 种 程度 的 准确 率 并 不 是 总 能 达到 。 为 了 达到 这 个 级 别 的 准确 率 ， 街 景 转录 系 
统 牺牲 了 覆盖 。 因 此 在 保持 准确 率 98% 的 情况 下 ， 履 盖 成 了 这 个 项 目 优化 的 主要 性 
能 度量 。 随 着 卷 积 网 络 的 改进 ， 我 们 能 够 降低 网 络 拒绝 转录 输入 的 置信 和 度 阔 值 ， 最 
终 超 出 了 履 盖 95% 的 目标 。 

在 选择 量化 目标 后 ， 我 们 推荐 方法 的 下 一 步 是 要 快速 建立 一 个 合理 的 基准 系统 。 
对 于 视觉 任务 而 言 ,基准 系统 是 带 有 整流 线性 单元 的 卷 积 网 络 。 转 录 项 目 开始 于 一 个 
这 样 的 模型 。 当 时 , 使 用 卷 积 网 络 输出 预测 序列 并 不 常见 。 开 始 时 , 我 们 使 用 一 个 尽 
可 能 简单 的 基准 模型 ， 该 模型 输出 层 的 第 一 个 实现 包含 ”个 不 同 的 softmax 单元 来 
预测 ”个 字符 的 序列 。 我 们 使 用 与 训练 分 类 任务 相同 的 方式 来 训练 这 些 softmax Ff 
元 ， 独 立地 训练 每 个 softmax 单元 。 

我 们 建议 反复 细 化 这 些 基 准 ， 并 测试 每 个 变化 是 否 都 有 改进 。 街 景 转录 系统 的 
第 一 个 变化 受 激励 于 覆盖 指标 的 理论 理解 和 数据 结构 。 具 体 地 ， 当 输出 序列 的 概率 
低 于 某 个 值 + 即 p(y | xz) < t 时 ， 网 络 拒绝 为 输入 xz 分类。 最 初 ，p(y | v) 的 定义 是 
临时 的 ， 简 单 地 将 所 有 softmax 函数 输出 乘 在 一 起 。 这 促使 我 们 发 展 能 够 真正 计算 
出 合理 对 数 似 然 的 特定 输出 层 和 代价 函数 。 这 种 方法 使 得 样本 拒绝 机 制 更 有 效 。 

IERT, 覆盖 仍 低 于 90%, 但 该 方法 没有 明显 的 理论 问题 了 。 因 此 , 我 们 的 方法 论 
建议 综合 训练 集 和 测试 集 性 能 ， 以 确定 问题 是 否 是 欠 拟 合 或 过 拟 合 。 在 这 种 情况 下 ， 
训练 和 测试 集 误差 几乎 是 一 样 的 。 事 实 上 ， 这 个 项 目 进行 得 如 此 顺利 的 主要 原因 是 
有 数 以 千 万 计 的 标注 样本 数据 集 可 用 。 因 为 训练 和 测试 集 的 误差 是 如 此 相似 ， 这 表 
明 要 么 是 这 个 问题 欠 拟 合 ,， 要么 是 训练 数据 的 问题 。 我 们 推荐 的 调试 策略 之 一 是 可 
视 化 模型 最 糟糕 的 错误 。 在 这 种 情况 下 ， 这 意味 着 可 视 化 不 正确 而 模型 给 了 最 高 
信 度 的 训练 集 转录 结果 。 结 果 显 示 ， 主 要 是 输入 图 像 裁剪 得 太 紧 ， 有 些 和 地 址 相关 的 
数字 被 裁剪 操作 除去 了 。 例 如 ， 地 址 “1849” 的 图 片 可 能 裁 切 得 太 紧 ， 只 剩 下 “849” 
是 可 见 的 。 如 果 我 们 花费 几 周 时 间 改 进 确定 裁剪 区 域 的 地 址 号 码 检 测 系 统 的 准确 率 ， 
或 许 也 可 以 解决 这 个 问题 。 与 之 不 同 ,项 目 团队 采取 了 更 实际 的 办 法 ， 简 单 地 系统 
性 扩大 裁剪 区 域 的 宽度 ， 使 其 大 于 地 址 号 码 检测 系统 预测 的 区 域 宽度 。 这 种 单一 改 
变 将 转录 系统 的 履 羡 提高 了 10 个 百分点 。 

最 后 ， 性 能 提升 的 最 后 几 个 百分点 来 自 调整 超 参 数 。 这 主要 包括 在 保持 一 些 计 
算 代价 限制 的 同时 加 大 模型 的 规模 。 因 为 训练 误差 和 测试 误差 保持 几乎 相等 ， 所 以 
明确 表明 性 能 不 足 是 由 欠 拟 合 造成 的 ， 数 据 集 本 身 也 存在 一 些 问题 。 

总 体 来 说 ， 转 录 项 目 是 非常 成 功 的 ， 可 以 比 人 工 速 度 更 快 、 代 价 更 低地 转录 数 
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以 亿 计 的 地 址 。 
我 们 希望 本 章 中 介绍 的 设计 原则 能 带 来 其 他 更 多 类 似 的 成 功 。 
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第 十 二 章 ”应 用 


在 本 章 中 ， 我 们 将 介绍 如 何 使 用 深度 学 习 来 解决 计算 机 视觉 、 语 音 识 别 、 自 然 
语言 处 理 以 及 其 他 商业 领域 中 的 应 用 。 首 先 我 们 将 讨论 在 许多 最 重要 的 AI 应 用 中 所 
需 的 大 规模 神经 网 络 的 实现 。 接 着 ， 我 们 将 回顾 深度 学 习 已 经 成 功 应 用 的 几 个 特定 
领域 。 尺 管 深度 学 习 的 一 个 目标 是 设计 能 够 处 理 各 种 任务 的 算法 ， 然 而 截止 目前 深 
度 学 习 的 应 用 仍然 需要 一 定 程度 的 特 化。 例如 ,计算 机 视觉 中 的 任务 对 每 一 个 样本 
都 需要 处 理 大 量 的 输入 特征 ( 像素 )。 自 然 语言 处 理 任务 的 每 一 个 输入 特征 都 需要 对 
大 量 的 可 能 值 (词汇 表 中 的 词 ) ER, 








12.1 大 规模 深度 学 习 


深度 学 习 的 基本 思想 基于 联结 主义 : 尽管 机 器 学 习 模 型 中 单个 生物 性 的 神经 元 
或 者 说 是 单个 特征 不 是 智能 的 ， 但 是 大 量 的 神经 元 或 者 特征 作用 在 一 起 往往 能 够 表 
现 出 智能 。 我 们 必须 着 重 强调 神经 元 数量 必须 很 大 这 个 事实 。 相 比 20 世纪 80 年 代 ， 
如 今 神 经 网 络 的 精度 以 及 处 理 任 务 的 复杂 度 都 有 一 定 提升 ， 其 中 一 个 关键 的 因素 就 
是 网 络 规模 的 巨大 提升 。 正 如 我 们 在 第 1.2.3 节 中 看 到 的 一 样 ， 在 过 去 的 三 十 年 内 ， 
网 络 规模 是 以 指数 级 的 速度 递增 的 。 然 而 如 今 的 人 工 神 经 网 络 的 规模 也 仅仅 和 昆虫 











的 神经 系统 差不多 。 
由 于 规模 的 大 小 对 于 神经 网 络 来 说 至 关 重 要 ， 因 此 深度 学 习 需 要 高 性 能 的 硬件 
设施 和 软件 实现 。 
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12.1.1 ”快速 的 CPU 实现 


传统 的 神经 网 络 是 用 单 台 机 需 的 CPU 来 训练 的 。 如 今 ， 这 种 做 法 通常 被 视 为 是 
不 可 取 的 。 现 在 ,我们 通常 使 用 GPU 或 者 许多 台 机 器 的 CPU 连接 在 一 起 进行 计 
算 。 在 使 用 这 种 昂贵 配置 之 前 ， 为 论证 CPU 无 法 承担 神经 网 络 所 需 的 巨大 计算 量 ， 
研究 者 们 付出 了 巨大 的 努力 。 

描述 如 何 实现 高 效 的 数值 CPU 代码 已 经 超出 了 本 书 的 讨论 范围 ， 但 是 我 们 在 
这 里 还 是 要 强调 通过 设计 一 些 特定 的 CPU 上 的 操作 可 以 大 大 提升 效率 。 例 如 ， 在 
2011 年 ， 最 好 的 CPU 在 训练 神经 网 络 时 使 用 定点 运算 能 够 比 浮 点 运算 跑 得 更 快 。 
通过 调整 定点 运算 的 实现 方式 ，Vanhoucke et al. (2011) 获得 了 3 售 于 一 个 强 浮 点 
运算 系统 的 速度 。 因 为 各 个 新 型 CPU 都 有 各 自 不 同 的 特性 ， 所 以 有 时 候 采 用 浮 点 
运算 实现 会 更 快 。 一 条 重要 的 准则 就 是 ， 通 过 特殊 设计 的 数值 运算 ， 我 们 可 以 获得 
巨大 的 回报 。 除 了 选择 定点 运算 或 者 浮 点 运算 以 外 ， 其 他 的 策略 还 包括 了 如 通过 优 
化 数据 结构 避免 高 速 缓存 缺失 、 使 用 回 量 指令 等 。 如 果 模 型 规模 不 会 限制 模型 表现 
(不 会 影响 模型 精度 ) 时 ， 机 器 学 习 的 研究 者 们 一 般 忽 略 这 些 实现 的 细节 。 














12.1.2 GPU 实现 


许多 现代 神经 网 络 的 实现 基于 图 形 处 理 器 (Graphics Processing Unit, GPU )。 
图 形 处 理 器 (GPU ) 最 初 是 为 图 形 应 用 而 开发 的 专用 硬件 组 件 。 视 频 游戏 系统 的 
消费 市 场 刺激 了 图 形 处 理 硬件 的 发 展 。 它 为 视频 游戏 所 设计 的 特性 也 可 以 使 神经 网 
络 的 计算 受益 。 

视频 游戏 的 泻 染 要 求 许多 操作 能 够 快速 并 行 地 执行 。 环 境 和 角色 模型 通过 一 系 
列 顶 点 的 3D 坐标 确定 。 为 了 将 大 量 的 3D 坐标 转化 为 2D 显示 需 上 的 坐标 ， 显 卡 必 
须 并 行 地 对 许多 顶点 执行 矩阵 乘法 与 除法 。 之 后 ， 显 卡 必 须 并 行 地 在 每 个 像素 上 执 
行 诸多 计算 , 来 确定 每 个 像素 点 的 颜色 。 在 这 两 种 情况 下 ， 计 算 都 是 非常 简单 的 ， 并 
且 不 涉及 CPU 通常 遇 到 的 复杂 的 分 支 运 算 。 例 如 ， 同 一 个 刚体 内 的 每 个 顶点 都 会 乘 
上 相同 的 和 矩阵 ;也 就 是 说 ， 不 需要 通过 if 语句 来 判断 确定 每 个 顶点 需要 乘 哪 个 矩 
阵 。 各 个 计算 过 程 之 间 也 是 完全 相互 独立 的 ， 因 此 能 够 实现 并 行 操作 。 计 算 过 程 还 
涉及 处 理 大量 内 存 缓冲 以 及 描述 每 一 个 需要 被 泻 染 的 对 象 的 纹理 (颜色 模式 ) 的 位 
图 信息 。 总 的 来 说 ， 这 使 显卡 设计 为 拥有 高 度 并 行 特 性 以 及 很 高 的 内 存 带 宽 ， 同 时 
也 付出 了 一 些 代价 ， 如 相 比 传统 的 CPU 更 慢 的 时 钟 速度 以 及 更 弱 的 处 理 分 支 运算 
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与 上 述 的 实时 图 形 算 法 相 比 ， 神 经 网 络 算法 所 需要 的 性 能 特性 是 相同 的 。 神 经 
网 络 算法 通常 涉及 大 量 参 数 、 激 活 值 、 梯 度 值 的 缓冲 区 , 其 中 每 个 值 在 每 一 次 训练 迭 
代 中 都 要 被 完全 更 新 。 这 些 缓冲 太 大 ,会 超出 传统 的 桌面 计算 机 的 高 速 缓存 (cache), 
所 以 内 存 带宽 通常 会 成 为 主要 瓶颈 。 相 比 CPU, GPU 一 个 显著 的 优势 是 其 极 高 的 内 
存 带宽 。 神 经 网 络 的 训练 算法 通常 并 不 涉及 大 量 的 分 支 运算 与 复杂 的 控制 指令 ， 所 
以 更 适合 在 GPU 硬件 上 训练 。 由 于 神经 网 络 能 够 被 分 为 多 个 单独 的 “神经 元 ”"， 并 
且 独 立 于 同一 层 内 其 他 神经 元 进行 处 理 ， 所 以 神经 网 络 可 以 从 GPU 的 并 行 特性 中 
受益 菲 浅 。 

GPU 硬件 最 初 专 为 图 形 任 务 而 设计 。 随 着 时 间 的 推移 ，GPU 也 变 得 更 灵活 ， 
允许 定制 的 子 程序 处 理 转 化 顶点 坐标 或 者 计算 像素 颜色 的 任务 。 原 则 上 ，GPU 不 
要 求 这 些 像 素 值 实际 基于 泻 染 任务 。 只 要 将 计算 的 输出 值 作为 像素 值 写 人 缓冲 区 ， 
GPU 就 可 以 用 于 科学 计算 。Steinkrau et al. (2005) 在 GPU 上 实现 了 一 个 两 层 
全 连接 的 神经 网 络 ， 并 获得 了 相对 基于 CPU 的 基准 方法 三 倍 的 加 速 。 不 和 久 以 后 ， 
Chellapilla et al. (2006) 也 论证 了 相同 的 技术 可 以 用 来 加 速 监 督 卷 积 网 络 的 训练 。 

在 通用 GPU 发 布 以 后 ， 使 用 显卡 训练 神经 网 络 的 热度 开始 爆炸 性 地 增长 。 这 
种 通用 GPU 可 以 执行 任意 的 代码 ， 而 并 非 仅 仅 泻 染 子 程序 。NVIDIA 的 CUDA 
编程 语言 使 得 我 们 可 以 用 一 种 像 C 一 样 的 语言 实现 任意 代码 。 由 于 相对 简便 的 编 
程 模型 ， 强 大 的 并 行 能 力 以 及 巨大 的 内 存 带 宽 , 通用 GPU 为 我 们 提供 了 训练 神经 
网 络 的 理想 平台 。 在 它 发 布 以 后 不 久 ， 这 个 平台 就 迅速 被 深度 学 习 的 研究 者 们 所 采 
纳 (Raina et al., 2009b; Ciresan et al., 2010). 

如 何在 通用 GPU 上 写 高 效 的 代码 依然 是 一 个 难题 。 存 GPU 上 获得 良好 表现 
所 需 的 技术 与 CPU 上 的 技术 非常 不 同 。 比 如 说 ， 基 于 CPU 的 良好 代码 通常 被 设 
计 为 尽 可 能 从 高 速 缓存 中 读 取 更 多 的 信息 。 然 而 在 GPU 中 ,， 大 多 数 可 写 内 存 位 置 
并 不 会 被 高 速 缓存 ， 所 以 计算 某 个 值 两 次 往往 会 比 计算 一 次 然后 从 内 存 中 读 取 更 快 。 
GPU 代码 是 天 生 多 线程 的 ， 不 同 线程 之 间 必 须 仔 细 协 调 好 。 例 如 ， 如 果 能 够 把 数 
据 级 联 (coalesced ) 起 来 ,那么 涉及 内 存 的 操作 一 般 会 更 快 。 当 几 个 线程 同时 需要 
读 / 写 一 个 值 时 ， 像 这 样 的 级 联 会 作为 一 次 内 存 操作 出 现 。 不 同 的 GPU 可 能 采用 不 
同 的 级 联 读 / 写 数据 的 方式 。 通常 来 说 ， 如 果 在 n 个 线程 中 , 线程 ; 访问 的 是 第 ;二 7 
处 的 内 存 , 其 中 j 是 2 的 某 个 寡 的 倍数 , 那么 内 存 操作 就 易于 级 联 。 具 体 的 设 定 在 不 
同 的 GPU 型 号 中 有 所 区 别 。GPU 另 一 个 常见 的 设 定 是 使 一 个 组 中 的 所 有 线程 都 同 
时 执行 同一 指令 。 这 意味 着 GPU 难以 执行 分 支 操作 。 线 程 被 分 为 一 个 个 称 作 warp 
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(warp ) 的 小 组 。 在 一 个 warp 中 的 每 一 个 线程 在 每 一 个 循环 中 执行 同一 指令 ， 所 以 
当 同 一 个 warp 中 的 不 同 线程 需要 执行 不 同 的 指令 时 ， 需 要 使 用 串 行 而 非 并 行 的 方 
zie 

由 于 实现 高 效 GPU 代码 的 困难 性 , 研究 人 员 应 该 组 织 好 他 们 的 工作 流程 ， 避 人 免 
对 每 一 个 新 的 模型 或 算法 都 编写 新 的 GPU 代码 。 通常 来 讲 ， 人 们 会 选择 建立 一 个 包 
含 高 效 操作 ( 如 卷 积 和 甜 阵 乘 法 ) 的 软件 库 解 决 这 个 问题 ， 然 后 再 从 库 中 调用 所 需 
要 的 操作 确定 模型 。 例 如 ， 机 器 学 习 库 Pylearn2 (Goodfellow et al., 2013e) 将 其 所 
有 的 机 需 学 习 算 法 都 通过 调用 Theano (Bergstra et al., 2010c; Bastien et al., 2012a) 
和 cuda-convnet (Krizhevsky, 2010) 所 提供 的 高 性 能 操作 来 指定 。 这 种 分 解 方法 还 
可 以 简化 对 多 种 硬件 的 支持 。 例 如 ， 同 一 个 Theano 程序 可 以 在 CPU 或 者 GPU 上 
运行 ， 而 不 需要 改变 调用 Theano 的 方式 。 其 他 库 如 Tensorflow (Abadi et al., 2015) 
和 Torch (Collobert et al., 2011b) 也 提供 了 类 似 的 功能 。 























12.1.3 ”大 规模 的 分 布 式 实现 


在 许多 情况 下 ， 单 个 机 器 的 计算 资源 是 有 限 的 。 因 此 ， 我 们 希望 把 训练 或 者 推 
断 的 任务 分 挫 到 多 个 机 器 上 进行 。 

分 布 式 的 推断 是 容易 实现 的 ， 因 为 每 一 个 输入 的 样本 都 可 以 在 单独 的 机 器 上 运 
行 。 这 也 被 称 为 数据 并 行 (data parallelism )。 

同样 地 ， 模 型 并 行 ( model parallelism ) 也 是 可 行 的 ,其 中 多 个 机 器 共同 运行 一 
个 数据 点 ， 每 一 个 机 需 负责 模型 的 一 个 部 分 。 对 于 推断 和 训练 ， 这 都 是 可 行 的 。 

在 训练 过 程 中 ， 数 据 并 行 某 种 程度 上 来 说 更 加 困难 对 于 随机 梯度 下 降 的 单 步 来 
说 ， 我 们 可 以 增加 小 批量 的 大 小 ， 但 是 从 优化 性 能 的 角度 来 说 ， 我 们 得 到 的 回报 通 
常 并 不 会 线性 增长 。 使 用 多 个 机 器 并 行 地 计算 多 个 梯度 下 降 步 又 是 一 个 更 好 的 选择 。 
不 幸 的 是 ,梯度 下 降 的 标准 定义 完全 是 一 个 串 行 的 过 程 : 第 t 步 的 梯度 是 第 t 一 1 步 
Bf BRL 

这 个 问题 可 以 使 用 异步 随机 梯度 下 降 ( Asynchoronous Stochastic Gradient 
Descent ) (Bengio and Bengio, 1996; Recht et al., 2011) 解决 。 在 这 个 方法 中 ， 几 个 
处 理 咒 的 核 共 用 存 有 参数 的 内 存 。 每 一 个 核 在 无 锁 情 况 下 读 取 这 些 参数 并 计算 对 应 
的 梯度 ， 然 后 在 无 锁 状 态 下 更 新 这 些 参数 。 由 于 一 些 核 把 其 他 的 核 所 更 新 的 参数 履 
盖 了 ， 因 此 这 种 方法 减少 了 每 一 步 梯 度 下 降 所 获得 的 平均 提升 。 但 因为 更 新 步 数 的 
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速率 增加 ， 总 体 上 还 是 加 快 了 学 习 过 程 。Dean et al. (2012) 率先 提出 了 多 机 器 无 锁 
的 梯度 下 降 方 法 ， 其 中 参数 是 由 参数 服务 器 ( parameter server ) 管理 而 非 存储 在 共 
用 的 内 存 中 。 分 布 式 的 异步 梯度 下 降 方 法 保留 了 训练 深度 神经 网 络 的 基本 策略 , 并 被 
工业 界 很 多 机 器 学 习 组 所 使 用 (Chilimbi et al., 2014; Wu et al., 2015)。 学 术 界 的 深 
度 学 习 研 究 者 们 通常 无 法 负担 那么 大 规模 的 分 布 式 学 习 系 统 ， 但 是 一 些 研究 仍 关注 
于 如 何在 校园 环境 中 使 用 相对 廉价 的 硬件 系统 构造 分 布 式 网 络 (Coates et al., 2013)。 








12.1.4 ”模型 压缩 


在 许多 商业 应 用 的 机 带 学 习 模型 中 ， 一 个 时 间 和 内 存 开销 较 小 的 推断 算法 比 一 
个 时 间 和 内 存 开销 较 小 的 训练 算法 要 更 为 重要 。 对 于 那些 不 需要 个 性 化 设计 的 应 用 
来 说 ， 我 们 只 需要 一 次 性 的 训练 模型 ， 然 后 它 就 可 以 被 成 千 上 万 的 用 户 使 用 。 在 许 
多 情况 下 ， 相 比 开 发 者 ， 终 端 用 户 的 可 用 资源 往往 更 有 限 。 例 如 ， 开 发 者 们 可 以 使 
用 巨大 的 计算 机 集群 训练 一 个 语音 识别 的 网 络 ， 然 后 将 其 部 署 到 移动 手机 上 。 

减少 推断 所 需 开 销 的 一 个 关键 策略 是 模型 压缩 (model compression ) (Buciluá 
et ol/.,，2006)。 模 型 压缩 的 基本 思想 是 用 一 个 更 小 的 模型 取代 替 原 始 耗 时 的 模型 ， 从 
而 使 得 用 来 存储 与 评估 所 需 的 内 存 与 运行 时 间 更 少 。 

当 原始 模型 的 规模 很 大 ， 且 我 们 需要 防止 过 拟 合 时 ， 模 型 压缩 就 可 以 起 到 作用 。 
在 许多 情况 下 ， 拥 有 最 小 泛 化 误差 的 模型 往往 是 多 个 独立 训练 而 成 的 模型 的 集成 。 
评估 所 有 n 个 集成 成 员 的 成 本 很 高 。 有 时 候 ， 当 单个 模型 很 大 ( 例如， 如果 它 使 
JH Dropout 正则 化 ) 时 ， 其 泛 化 能 力也 会 很 好 。 

这 些 巨大 的 模型 能 够 学 习 到 某 个 函数 f(x)， 但 选用 的 参数 数量 超过 了 任务 所 需 
的 参数 数量 。 只 是 因为 训练 样本 数 是 有 限 的 ， 所 以 模型 的 规模 才 变 得 必要 。 只 要 我 
们 拟 合 了 这 个 函数 f(a), 我 们 就 可 以 通过 将 f 作用 于 随机 采样 点 x 来 生成 有 无 穷 多 
训练 样本 的 训练 集 。 然 后 ， 我 们 使 用 这 些 样 本 训练 一 个 新 的 更 小 的 模型 ， 使 其 能 够 
在 这 些 点 上 拟 合 f(z)。 为 了 更 加 充分 地 利用 了 这 个 新 的 小 模型 的 容量 ， 最 好 从 类 似 
于 真实 测试 数据 (之 后 将 提供 给 模型 ) 的 分 布 中 采样 z。 这 个 过 程 可 以 通过 损坏 训 
练 样本 或 者 从 原始 训练 数据 训练 的 生成 模型 中 采样 完成 。 

此 外 ， 我 们 还 可 以 仅 在 原始 训练 数据 上 训练 一 个 更 小 的 模型 ， 但 只 是 为 了 复制 
模型 的 其 他 特征 ， 比 如 在 不 正确 的 类 上 的 后 验 分 布 (Hinton et al., 2014, 2015). 
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12.1.5 “动态 结构 


一 般 来 说 ， 加 速 数据 处 理 系统 的 一 种 策略 是 构造 一 个 系统 ， 这 个 系统 用 动态 
结构 (dynamic structure ) 描述 图 中 处 理 输入 的 所 需 计 算 过 程 。 在 给 定 一 个 输入 的 
情况 中 ， 数 据 处 理 系统 可 以 动态 地 决定 运行 神经 网 络 系统 的 哪 一 部 分 。 单 个 神经 网 
络 内 部 同样 也 存在 动态 结构 ， 给 定 输 入 信息 ,决定 特征 〈 隐藏 单元 ) 哪 一 部 分 用 于 
计算 。 这 种 神经 网 络 中 的 动态 结构 有 时 被 称 为 条 件 计算 (conditional computation ) 
(Bengio et al., 2013b,c)。 由 于 模型 结构 许多 部 分 可 能 只 跟 输入 的 一 小 部 分 有 关 ， 只 
计算 那些 需要 的 特征 可 以 起 到 加 速 的 目的 。 

动态 结构 计算 是 一 种 基础 的 计算 机 科学 方法 ， 广 泛 应 用 于 软件 工程 项 目 。 应 用 
于 神经 网 络 的 最 简单 的 动态 结构 基于 决定 神经 网 络 (或 者 其 他 机 器 学 习 模 型 ) 中 的 
哪些 子 集 需 要 应 用 于 特定 的 输入 。 

在 分 类 器 中 加 速 推断 的 可 行 策 略 是 使 用 级 联 ( cascade) 的 分 类 器 。 当 目标 是 检 
测 罕 见 对 象 (或 事件 ) 是 否 存在 时 ， 可 以 应 用 级 联 策略 。 要 确定 对 象 是 否 存在 ,我 们 
必须 使 用 具有 高 容量 、 运 行 成 本 高 的 复杂 分 类 器 。 然 而 ,因为 对 象 是 罕见 的 , 我 们 通 
党 可 以 使 用 更 少 的 计算 拒绝 不 包含 对 象 的 输入 。 在 这 些 情 况 下 ， 我 们 可 以 训练 一 序 
列 分 类 器 。 序 列 中 的 第 一 个 分 类 器 具有 低 容 量 ， 训 练 为 具有 高 召回 率 。 换 句 话说 ,他 
们 被 训练 为 确保 对 象 存 在 时 ， 我 们 不 会 错误 地 拒绝 输入 。 最 后 一 个 分 类 器 被 训练 为 
具有 高 精度 。 在 测试 时 ， 我 们 按照 顺序 运行 分 类 器 进行 推断 ， 一 旦 级 联 中 的 任何 一 
个 拒绝 它 ， 就 选择 抛弃 。 总 的 来 说 ， 这 人 允许 我 们 使 用 高 容量 模型 以 较 高 的 置信 和 度 验 
证 对 象 的 存在 ， 而 不 是 强制 我 们 为 每 个 样本 付出 完全 推断 的 成 本 。 有 两 种 不 同 的 方 
式 可 以 使 得 级 联 实现 高 容量 。 一 种 方法 是 使 级 联 中 靠 后 的 成 员 单独 具有 高 容量 。 在 
这 种 情况 下 ， 由 于 系统 中 的 一 些 个 体 成 员 具 有 高 容量 ， 因 此 系统 作为 一 个 整体 显然 
也 具有 高 容量 。 还 可 以 使 用 另 一 种 级 联 ， 其 中 每 个 单独 的 模型 具有 低 容量 ， 但 是 由 
于 许多 小 型 模型 的 组 合 ， 整 个 系统 具有 高 容量 。Viola and Jones (2001) 使 用 级 联 的 
增强 决策 树 实现 了 适合 在 手持 数字 相机 中 使 用 的 快速 并 日 鲁 棒 的 面部 检测 右 。 本 质 
上 ， 它 们 的 分 类 带 使 用 滑动 窗口 方法 来 定位 面部 。 分 类 器 会 检查 许多 的 窗口 ， 如 果 
这 些 窗口 内 不 包含 面部 则 被 拒绝 。 级 联 的 另 一 个 版 本 使 用 早期 模型 来 实现 一 种 硬 注 
意 力 机 制 : 级 联 的 先 遗 成 员 定 位 对 象 ， 并 且 级 联 的 后 续 成 员 在 给 定 对 象 位 置 的 情况 
下 执行 进一步 处 理 。 例 如 ，Google 使 用 两 步 级 联 从 街景 视图 图 像 中 转换 地 址 编号 : 
首先 使 用 一 个 机 器 学 习 模 型 查找 地 址 编号 ， 然 后 使 用 另 一 个 机 器 学 习 模 型 将 其 转录 
(Goodfellow et al., 2014d). 











ww ai bbc. com (1H E BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
382 第 十 二 章 应 用 


决策 树 本 和 喘 是 动态 结构 的 一 个 例子 ， 因 为 树 中 的 每 个 节点 决定 应 该 使 用 哪个 子 
树 来 评估 输入 。 一 个 结合 深度 学 习 和 动态 结构 的 简单 方法 是 训练 一 个 决策 树 ， 其 中 
每 个 节点 使 用 神经 网 络 做 出 决策 (Guo and Gelfand, 1992), 虽然 这 种 方法 没有 实现 
加 速 推断 计算 的 目标 。 

类 似 的 ， 我 们 可 以 使 用 称 为 选 通 器 〈gater ) 的 神经 网 络 来 选择 在 给 定 当 前 输入 
的 情况 下 将 使 用 几 个 专家 网 络 (expert network ) 中 的 哪 一 个 来 计算 输出 。 这 个 想法 
的 第 一 个 版 本 被 称 为 专家 混合 体 (mixture of experts ) (Nowlan, 1990; Jacobs et al., 
1991)， 其 中 选 通顺 为 每 个 专家 输出 一 个 概率 或 权重 〈 通过 非 线性 的 softmax Pe BOR 
得 )， 并 且 最 终 输出 由 各 个 专家 输出 的 加 权 组 合 获得 。 在 这 种 情况 下 ， 使 用 选 通 器 不 
会 降低 计算 成 本 ,但 如 果 每 个 样本 的 选 通 器 选择 单个 专家 ， 我 们 就 会 获得 一 个 特殊 
的 硬 专家 混合 体 (hard mixture of experts) (Collobert et al., 2001, 2002)， 这 可 以 
加 速 推 新 和 训练 。 当 选 通 器 决策 的 数量 很 小 时 ， 这 个 策略 效果 会 很 好 ， 因 为 它 不 是 
组 合 的 。 但 是 当 我 们 想 要 选择 不 同 的 单元 或 参数 子 集 时 ， 不 可 能 使 用 “ 软 开 关 ?”， 
为 它 需要 枚 举 〈 和 计算 输出 ) 所 有 的 选 通 需 配置 。 为 了 解决 这 个 问题 ， 许 多 工作 探 
索 了 几 种 方法 来 训练 组 合 的 选 通 器 。Bengio et al. (2013c) 提出 使 用 选 通 器 概率 梯度 
的 若干 估计 器 ,而 Bacon et al. (2015); Bengio et al. (2015a) 使 用 强化 学 习 技 术 C R 
BREE (policy gradient ) ) 来 学 习 一 种 条 件 的 Dropout 形式 (作用 于 隐藏 单元 块 ), 
减少 了 实际 的 计算 成 本 ， 而 不 会 对 近似 的 质量 产生 负面 影响 。 

另 一 种 动态 结构 是 开关 ， 其 中 隐藏 单元 可 以 根据 具体 情况 从 不 同 单元 接收 输 
和 人 入。 这 种 动态 路 由 方法 可 以 理解 为 注意 力 机 制 (attention mechanism ) (Olshausen 
et al., 1993)。 目 前 为 止 ， 硬 性 开关 的 使 用 在 大 规模 应 用 中 还 没有 被 证 明 是 有 效 的 。 
较为 先进 的 方法 一 般 采 用 对 许多 可 能 的 输入 使 用 加 权 平 均 ， 因 此 不 能 完全 得 到 动态 
结构 所 带 来 的 计算 益处 。 先 进 的 注意 力 机 制 将 在 第 12.4.5.1 节 中 描述 。 

使 用 动态 结构 化 系统 的 主要 障碍 是 由 于 系统 针对 不 同 输入 的 不 同 代码 分 支 导 致 
的 并 行 度 降低 。 这 意味 着 网 络 中 只 有 很 少 的 操作 可 以 被 描述 为 对 样本 小 批量 的 矩阵 
乘法 或 批量 卷 积 。 我 们 可 以 写 更 多 的 专用 子 程序 ， 用 不 同 的 核对 样本 做 卷 积 ， 或 者 
通过 不 同 的 权重 列 来 乘 以 设计 矩阵 的 每 一 行 。 不 幸 的 是 ， 这 些 专 用 的 子 程序 难以 高 
效 地 实现 。 由 于 缺乏 高 速 缓存 的 一 致 性 ，CPU 实现 会 十 分 缓慢 。 此 外 ， 由 于 缺乏 级 
联 的 内 存 操作 以 及 warp 成 员 使 用 不 同 分 支 时 需要 串 行 化 操作 ，GPTU 的 实现 也 会 很 
慢 。 在 一 些 情况 下 ， 我 们 可 以 通过 将 样本 分 成 组 ， 并 且 都 采用 相同 的 分 支 并 且 同 时 
处 理 这 些 样本 组 的 方式 来 绥 解 这 些 问 题 。 在 离线 环境 中 ， 这 是 最 小 化 处 理 固 定量 术 
本 所 需 时 间 的 一 项 可 接受 的 策略 。 然 而 在 实时 系统 中 ， 样 本 必须 连续 处 理 ， 对 工作 
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负载 进行 分 区 可 能 会 导致 负载 均衡 问题 。 例 如 ， 如 果 我 们 分 配 一 台 机 器 处 理 级 联 中 
的 第 一 步 ， 另 一 台 机 融 处 理 级 联 中 的 最 后 一 步 ， 那 么 第 一 台 机 器 将 倾向 于 过 载 ， 最 
后 一 个 机 器 倾向 于 从 载 。 如 果 每 个 机 咒 被 分 配 以 实现 神经 决策 树 的 不 同 节点 ， 也 会 
出 现 类 似 的 问题 。 


12.1.6 ”深度 网 络 的 专用 硬件 实现 


自从 早期 的 神经 网 络 研究 以 来 ， 硬 件 设计 者 已 经 致力 于 可 以 加 速 神经 网 络 算法 
的 训练 和 /或 推断 的 专用 硬件 实现 。 读 者 可 以 查看 早期 和 更 近 的 专用 硬件 深度 网 络 的 
评论 (Lindsey and Lindblad, 1994; Beiu et al., 2003; Misra and Saha, 2010)。 

不 同形 式 的 专用 硬件 (Graf and Jackel, 1989; Mead and Ismail, 2012; Kim et al., 
2009; Pham et al., 2012; Chen et al., 2014b,a) 的 研究 已 经 持续 了 好 几 十 年 ， 比 如 专 
用 和 集成 电路 ( application-specific integrated circuit, ASIC) 的 数字 (基于 数字 的 二 
进 制 表示 )， 模 拟 (Graf and Jackel, 1989; Mead and Ismail, 2012) ( 基于 以 电压 或 电 
流 表示 连续 值 的 物理 实现 ) 和 混合 实现 ( 组 合 数字 和 模拟 组 件 )。 近 年 来 更 灵活 的 现 
场 可 编程 门 阵列 (field programmable gated array, FPGA ) 实现 (其 中 电路 的 具体 
细节 可 以 在 制造 完成 后 写 和 人 芯片 ) 也 得 到 了 长 足 发 展 。 

虽然 CPU 和 GPU 上 的 软件 实现 通常 使 用 32 或 64 位 的 精度 来 表示 浮 点 数 , 但 
是 长 期 以 来 使 用 较 低 的 精度 在 更 短 的 时 间 内 完成 推 凯 也 是 可 行 的 (Holt and Baker, 
1991; Holi and Hwang, 1993; Presley and Haggard, 1994; Simard and Graf, 1994; 
Wawrzynek et al., 1996; Savich et al., 2007). 这 已 成 为 近年 来 更 迫切 的 问题 ,因为 深 
度 学 习 在 工业 产品 中 越 来 越 受 欢迎 ， 并 且 由 于 更 快 的 硬件 产生 的 巨大 影响 已 经 通 
过 GPU 的 使 用 得 到 了 证 明 。 激 励 当 前 对 深度 网 络 专用 硬件 研究 的 男 一 个 因素 是 单 
4 CPU 或 GPU 核心 的 进展 速度 已 经 减 慢 ， 并 且 最 近 计 算 速 度 的 改进 来 自 于 核心 的 
并 行 化 (无论 CPU 还 是 GPU )。 这 与 20 世纪 90 年 代 的 情况 (上 一 个 神经 网 络 时 
R) 的 不 同 之 处 在 于 ， 神 经 网 络 的 硬件 实现 《从 开始 到 芯片 可 用 可 能 需要 两 年 ) 跟 
不 上 快速 进展 和 价格 低廉 的 通用 CPU 的 脚步 。 因 此 ,在 针对 诸如 手机 等 低 功率 设备 
开发 新 的 硬件 设计 , 并 且 想 要 用 于 深度 学 习 的 一 般 公 众 应 用 (例如 ,具有 语音 、 计 算 
机 视觉 或 自然 语言 功能 的 设施 ) 等 时 ， 研 究 专用 硬件 能 够 进一步 推动 其 发 展 。 

最 近 对 基于 反 向 传播 神经 网 络 的 低 精度 实现 的 工作 (Vanhoucke et al., 2011; 
Courbariaux et al., 2015; Gupta et al., 2015) 表明 ，8 和 16 位 之 间 的 精度 足以 满足 
使 用 或 训练 基于 反 向 传播 的 深度 神经 网 络 的 要 求 。 显 而 易 见 的 是 ， 在 训练 期 间 需 要 
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比 在 推断 时 更 高 的 精度 ， 并 且 数 字 某 些 形式 的 动态 定点 表示 能 够 减少 每 个 数 需要 的 
存储 空间 。 传 统 的 定点 数 被 限制 在 了 一 个 固定 范围 之 内 (其 对 应 于 浮 点 表示 中 的 给 
定 指数 )。 而 动态 定点 表示 在 一 组 数字 (例如 一 个 层 中 的 所 有 权重 ) 之 间 共 享 该 范 
围 。 使 用 定点 代替 浮 点 表示 并 且 每 个 数 使 用 较 少 的 比特 能 够 减少 执行 乘法 所 需 的 人 硬 
件 表面 积 、 功 率 需 求 和 计算 时 间 。 而 乘法 已 经 是 使 用 或 训练 反 向 传播 的 现代 深度 网 
络 中 要 求 最 高 的 操作 。 








12.2 ”计算 机 视觉 


一 直 以 来 ,计算 机 视觉 就 是 深度 学 习 应 用 中 几 个 最 活路 的 研究 方向 之 一 。 因 为 
视觉 是 一 个 对 人 类 以 及 许多 动物 毫 不 费力 ， 但 对 计算 机 却 充满 挑战 的 任务 (Ballard 
et al., 1983)。 深 度 学 习 中 许多 流行 的 标准 基准 任务 包括 对 象 识别 以 及 光学 字符 识别 。 

计算 机 视觉 是 一 个 非常 广阔 的 发 展 领域 ， 其 中 包括 多 种 多 样 的 处 理 图 片 的 方式 
以 及 应 用 方向 。 计 算 机 视觉 的 应 用 广泛 : 从 复 现 人 类 视觉 能 力 ( 比如 识别 人 脸 ) 到 创 
造 全 新 的 视觉 能 力 。 举 个 后 者 的 例子 ， 近 期 一 个 新 的 计算 机 视觉 应 用 是 从 视频 中 可 
视 物体 的 振动 中 识别 相应 的 声波 (Davis et al., 2014)。 大 多 数 计算 机 视觉 领域 的 深度 
学 习 研 究 未 曾 关 注 过 这 样 一 个 奇异 的 应 用 ， 它 扩展 了 图 像 的 范围 ， 而 不 是 仅仅 关注 
于 人 工 智能 中 较 小 的 核心 目标 一 一 复制 人 类 的 能 力 。 无 论 是 报告 图 像 中 存在 哪个 物 
体 ， 还 是 给 图 像 中 每 个 对 象 周围 添加 注释 性 的 边框 ， 或 从 图 像 中 转录 符号 序列 ， 或 
给 图 像 中 的 每 个 像素 标记 它 所 属 对 象 的 标识 ， 大 多 数 计算 机 视觉 中 的 深度 学 习 往 往 
用 于 对 象 识别 或 者 某 种 形式 的 检测 。 由 于 生成 模型 已 经 是 深度 学 习 研 究 的 指导 原则 , 
因此 还 有 大 量 图 像 合成 工作 使 用 了 深度 模型 。 尽 管 图 像 合成 〈“ 无 中 生 有 ”) 通常 不 
包括 在 计算 机 视觉 内 ,但 是 能 够 进行 图 像 合 成 的 模型 通常 用 于 图 像 恢复 ， 即 修复 图 
像 中 的 缺陷 或 从 图 像 中 移 除 对 象 这 样 的 计算 机 视觉 任务 。 














12.2.1 FALIE 


由 于 原始 输入 往往 以 深度 学 习 架 构 难 以 表示 的 形式 出 现 ， 许 多 应 用 领域 需要 复 
林 精 细 的 预 处 理 。 计 算 机 视觉 通常 只 需要 相对 少 的 这 种 预 处 理 。 图 像 应 该 被 标准 化 ， 
从 而 使 得 它们 的 像素 都 在 相同 并 且 合 理 的 范围 内 ， 比 如 [0,1] 或 者 [1,1]。 将 [0,1] 
中 的 图 像 与 [0,255] 中 的 图 像 混合 通常 会 导致 失败 。 将 图 像 格式 化 为 具有 相同 的 比 
例 严格 上 说 是 唯一 一 种 必要 的 预 处 理 。 许 多 计算 机 视觉 架构 需要 标准 尺寸 的 图 像 ， 
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因此 必须 裁剪 或 缩放 图 像 以 适应 该 尺寸 。 然 而 ， 严 格 地 说 即使 是 这 种 重新 调整 比例 
的 操作 并 不 总 是 必要 的 。 一 些 卷 积 模型 接受 可 变 大 小 的 输入 并 动态 地 调整 它们 的 池 
化 区 域 大 小 以 保持 输出 大 小 恒定 (Waibel et al., 1989)。 其 他 卷 积 模型 具有 可 变 大 小 
的 输出 ， 其 尺寸 随 输入 自动 缩放 ， 例 如 对 图 像 中 的 每 个 像素 进行 去 品 或 标注 的 模型 
(Hadsell et al., 2007)。 

数据 集 增强 可 以 被 看 作 是 一 种 只 对 训练 集 做 预 处 理 的 方式 。 数 据 集 增强 是 减少 
大 多 数 计算 机 视觉 模型 泛 化 误差 的 一 种 极 好 方法 。 在 测试 时 可 用 的 一 个 相关 想法 是 
将 同一 输入 的 许多 不 同 版 本 传 给 模型 (例如, 在 稍微 不 同 的 位 置 处 裁剪 的 相同 图 像 )， 
并 且 在 模型 的 不 同 实例 上 决定 模型 的 输出 。 后 一 个 想法 可 以 被 理解 为 集成 方法 ， 并 
且 有 助 于 减少 泛 化 误差 。 

其 他 种 类 的 预 处 理 需 要 同时 应 用 于 训练 集 和 测试 集 ， 其 目的 是 将 每 个 样本 置 于 
更 规范 的 形式 ,以便 减 少 模型 需要 考虑 的 变化 量 。 减少 数据 中 的 变化 量 既 能 够 减少 泛 
化 误差 ， 也 能 够 减 小 拟 合 训练 集 所 需 模型 的 大 小 。 更 简单 的 任务 可 以 通过 更 小 的 模 
型 来 解决 ， 而 更 简单 的 解决 方案 泛 化 能 力 一 般 更 好 。 这 种 类 型 的 预 处 理 通 常 被 设计 
为 去 除 输入 数据 中 的 某 种 可 变性 ， 这 对 于 人 工 设 计 者 来 说 是 容易 描述 的 ， 并 且 人 工 
设计 者 能 够 保证 不 受到 任务 影响 。 当 使 用 大 型 数据 集 和 大 型 模型 训练 时 ， 这 种 预 处 
理 通 常 是 不 必要 的 ， 并 且 最 好 只 是 让 模型 学 习 哪 些 变化 性 应 该 保留 。 例 如 ， 用 于 分 
类 ImageNet 的 AlexNet 系统 仅 具 有 一 个 预 处 理 步 又 : 对 每 个 像素 减 去 训练 样本 的 
平均 值 (Krizhevsky et al., 2012b). 














12.2.1.1 ”对 比 度 归 一 化 





在 许多 任务 中 ， 对 比 度 是 能 够 安全 移 除 的 最 为 明显 的 变化 源 之 一 。 简 单 地 说 ， 
对 比 度 指 的 是 图 像 中 亮 像 素 和 瞳 像素 之 间 差 异 的 大 小 。 量 化 图 像 对 比 度 有 许多 方式 。 
在 深度 学 习 中 ， 对 比 度 通常 指 的 是 图 像 或 图 像 区 域 中 像素 的 标准 差 。 假 设 我 们 有 一 
个 张 量 表示 的 图 像 X e R”, HP Xj 表示 第 i 行 第 j 列 红色 的 强度 ，Xij2 对 
应 的 是 绿色 的 强度 ，X; ;s 对 应 的 是 蓝 色 的 强度 。 然 后 整个 图 像 的 对 比 度 可 以 表示 如 
F: 





C 


， = Y SOS Uu - Xy, (12.1) 


i=1 j=1 k=1 


ww ai bbt.com BB BL B B 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
386 第 十 二 章 ”应 用 





其 中 X 是 整个 图 片 的 平均 强度 ， 满 足 
3 
X= Ta 2 Xijk- (12.2) 


全 局 对 比 度 归 一 化 (Global contrast normalization, GCN ) 旨 在 通过 从 每 个 图 
像 中 减 去 其 平均 值 ， 然 后 重新 缩放 其 使 得 其 像素 上 的 标准 差 等 于 某 个 党 数 s 来 防止 
图 像 具 有 变化 的 对 比 度 。 这 种 方法 非常 复杂 ， 因 为 没有 缩放 因子 可 以 改变 零 对 比 度 
图 像 (所 有 像素 都 具有 相等 强度 的 图 像 ) 的 对 比 度 。 具 有 非常 低 但 非 零 对 比 度 的 图 
像 通 常 几乎 没有 信息 内 容 。 在 这 种 情况 下 除 以 真实 标准 差 通常 仅 能 放大 传感器 噪声 
或 压缩 伪 像 。 这 种 现象 启发 我 们 引入 一 个 小 的 正 的 正则 化 参数 入 来 平衡 估计 的 标准 
差 。 或者, 我们 至 少 可 以 约束 分 母 使 其 大 于 等 于 e。 给 定 一 个 输入 图 像 X， 全 局 对 比 
度 归 一 化 产生 输出 图 像 X ， 和 定义 为 


Xi j,k = 


2 





Xi,j,k = x 
S 
max{e yA tigh Dia Dj Dia Xie — 307) 


从 大 图 像 中 剪 切 感 兴趣 的 对 象 所 组 成 的 数据 集 不 可 能 包含 任何 强度 几乎 恒定 的 
图 像 。 在 这 些 情况 下 ， 通 过 设置 = 0 来 忽略 小 分 母 问 题 是 安全 的 ， 并 且 在 非常 罕 
见 的 情况 下 为 了 避免 除 以 0, 通过 将 。 设置 为 一 个 非常 小 的 值 比如 说 10-8。 这 也 
是 Goodfellow et al. (2013c) 在 CIFAR-10 数据 集 上 所 使 用 的 方法 。 随 机 剪裁 的 小 图 
像 更 可 能 具有 几乎 恒定 的 强度 ， 使 得 激进 的 正则 化 更 有 用 。 在 处 理 从 CIFAR-10 数 
据 中 随机 选择 的 小 区 域 时 ，Coates et al. (2011) 使 用 e= 0, 入 = 10。 


尺度 参数 s 通常 可 以 设置 为 1 (如 Coates et al. (2011) 所 采用 的 )， 或 选择 使 所 
有 样本 上 每 个 像素 的 标准 差 接近 1 ( 如 Goodfellow et al. (2013c) 所 采用 的 )。 


式 (12.3) 中 的 标准 差 仅仅 是 对 图 片 L? 范 数 的 重新 缩放 〈 假设 图 像 的 平均 值 已 经 
被 移 除 )。 我 们 更 偏向 于 根据 标准 差 而 不 是 L? 范 数 来 定义 GCN， 因 为 标准 差 包括 除 
以 像素 数量 这 一 步 ， 从 而 基于 标准 差 的 GCN 能 够 使 用 与 图 像 大 小 无 关 的 固定 的 s。 
然而 ， 观 察 到 L? 范 数 与 标准 差 成 比例 ， 这 符合 我 们 的 直觉 。 我 们 可 以 把 GCN 理解 
成 到 球 却 的 一 种 映射 。 图 12.1 对 此 有 所 说 明 。 这 可 能 是 一 个 有 用 的 属性 ， 因 为 神经 
网 络 往往 更 好 地 响应 空间 方向 ， 而 不 是 精确 的 位 置 。 响 应 相同 方向 上 的 多 个 距离 需 
要 具有 共 线 权重 向 量 但 具有 不 同 偏 置 的 隐藏 单 元 。 这 样 的 情况 对 于 学 习 算法 来 说 可 
能 是 困难 的 。 此 外 ,许多 浅 层 的 图 模型 把 多 个 分 离 的 模式 表示 在 一 条 线 上 会 出 现 问 
WL, GON 采用 一 个 样本 一 个 方向 :而 不 是 不 同 的 方向 和 距离 来 避免 这 些 问题 。 

! 译 者 ， 所 有 样本 相似 的 距离 


(12.3) 
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Raw input GCN, 4 =0 GCN, A = 107? 


Oo 


图 12.1: GCN 将 样本 投影 到 一 个 球 上 。[( 左 ) 原始 的 输入 数据 可 能 拥有 任意 的 范 数 。( 中 儿 = 0 时 
候 的 GON 可 以 完美 地 将 所 有 的 非 零 样本 投影 到 球 上 。 这 里 我 们 令 s = 1, e— 1075. B TH] 
使 用 的 GON 是 基于 归 一 化 标准 差 而 不 是 L^ 范 数 ， 所 得 到 的 球 并 不 是 单位 球 。( 右 ) > 0 的 正则 
化 GON 将 样本 投影 到 球 上 ,但 是 并 没有 完全 地 丢弃 其 范 数 中 变化 。s 和 的 取 值 与 之 前 一 样 。 









































与 直觉 相反 的 是 ， 存 在 被 称 为 sphering (sphering ) 的 预 处 理 操作 ， 并 且 它 不 
同 于 GCN。sphering 并 不 会 使 数据 位 于 球形 壳 上 ， 而 是 将 主 成 分 重新 缩放 以 具有 相 
等 方差 , 使 得 PCA 使 用 的 多 变量 正 态 分 布 具 有 球形 等 高 线 。sphering 通常 被 称 为 A 
化 ( whitening )。 


全 局 对 比 度 归 一 化 常常 不 能 突出 我 们 想 要 突出 的 图 像 特 征 ， 例 如 边缘 和 角 。 如 
果 我 们 有 一 个 场景 ， 包 含 了 一 个 大 的 黑暗 区 域 和 一 个 大 的 明亮 的 区 域 (例如 一 个 城 
市 广场 有 一 半 的 区 域 处 于 建筑 物 的 阴影 之 中 )， 则 全 局 对 比 度 归 一 化 将 确保 上 暗 区 域 的 
亮度 与 亮 区 域 的 亮度 之 间 存 在 大 的 差异 。 然 而 ， 它 不 能 确保 瞳 区 内 的 边缘 突出 。 


这 催生 了 局 部 对 比 度 归 一 化 (local contrast normalization, LCN ) 。 局 部 对 比 
度 归 一 化 确保 对 比 度 在 每 个 小 窗口 上 被 归 一 化 ， 而 不 是 作为 整体 在 图 像 上 被 归 一 化 。 
关于 局 部 对 比 度 归 一 化 和 全 局 对 比 度 归 一 化 的 比较 可 以 参考 图 12.2 。 

局 部 对 比 度 归 一 化 的 各 种 定义 都 是 可 行 的 。 在 所 有 情况 下 , 我 们 可 以 通过 减 去 邻 
近 像素 的 平均 值 并 除 以 邻近 像素 的 标准 差 来 修改 每 个 像素 。 在 一 些 情况 下 ， 要 计算 
以 当前 要 修改 的 像素 为 中 心 的 矩形 窗口 中 所 有 像素 的 平均 值 和 标准 差 (Pinto et al., 
2008)。 在 其 他 情况 下 ， 使 用 的 则 是 以 要 修改 的 像素 为 中 心 的 高 斯 权重 的 加 权 平 均 和 
加 权 标 准 差 。 在 彩色 图 像 的 情况 下 ， 一些 策 略 单独 处 理 不 同 的 颜色 通道 ， 而 其 他 策 
略 组 合 来 自 不 同 通道 的 信息 以 使 每 个 像素 归 一 化 (Sermanet et al., 2012)。 
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Input image GCN LCN 


图 12.2: 全 局 对 比 度 归 一 化 和 局 部 对 比 度 归 一 化 的 比较 。 直 观 上 说 ,全 局 对 比 度 归 一 化 的 效果 很 巧 
妙 。 它 使 得 所 有 的 图 片 的 尺度 都 差不多 ， 这 减轻 了 学 习 算 法 处 理 多 个 尺度 的 负担 。 局 部 对 比 度 归 
一 化 更 多 地 改变 了 图 人像， 丢弃 了 所 有 相同 强度 的 区 域 。 这 使 得 模型 能 够 只 关注 于 边缘 。 较 好 的 纹 
理 区 域 ， 如 第 二 行 的 屋子 ， 可 能 会 由 于 归 一 化 核 的 过 高 带宽 而 丢失 一 些 细节 。 














局 部 对 比 度 归 一 化 通常 可 以 通过 使 用 可 分 离 卷 积 ( 参考 第 9.8 市 ) 来 计算 特征 映 
射 的 局 部 平均 值 和 局 部 标准 差 ， 然 后 在 不 同 的 特征 映射 上 使 用 逐 元 素 的 减法 和 除法 。 

局 部 对 比 度 归 一 化 是 可 微分 的 操作 ， 并 且 还 可 以 作为 一 种 非 线性 作用 应 用 于 网 
络 隐藏 屋 ， 以 及 应 用 于 输入 的 预 处 理 操作 。 

与 全 局 对 比 度 归 一 化 一 样 ， 我 们 通常 需要 正则 化 局 部 对 比 度 归 一 化 来 避免 出 现 
除 以 零 的 情况 。 事 实 上 ， 因 为 局 部 对 比 度 归 一 化 通常 作用 于 较 小 的 窗口 ， 所 以 正则 
化 更 加 重要 。 较 小 的 窗口 更 可 能 包含 彼此 几乎 相同 的 值 ， 因 此 更 可 能 具有 零 标 准 差 。 


12.2.2 ”数据 集 增强 


如 第 7.4 节 中 讲 到 的 一 样 ， 我 们 很 容易 通过 增加 训练 集 的 额外 副本 来 增加 训练 
集 的 大 小 ， 进 而 改进 分 类 器 的 泛 化 能 力 。 这 些 额 外 副本 可 以 通过 对 原始 图 像 进行 一 
些 变 化 来 生成 ， 但 是 并 不 改变 其 类 别 。 对 象 识别 这 个 分 类 任务 特别 适合 于 这 种 形式 
的 数据 集 增强 ， 因 为 类 别 信息 对 于 许多 变换 是 不 变 的 ， 而 我 们 可 以 简单 地 对 输入 应 
用 诸多 几何 变换 。 如 前 所 述 ， 分 类 器 可 以 受益 于 随机 转换 或 者 旋转 ， 某 些 情 况 下 输 
入 的 翻转 可 以 增强 数据 集 。 在 专门 的 计算 机 视觉 应 用 中 ， 存 在 很 多 更 高 级 的 用 以 数 
据 集 增强 的 变换 。 这 些 方案 包括 图 像 中 颜色 的 随机 扰动 (Krizhevsky et al., 2012b)， 
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以 及 对 输入 的 非 线 性 几何 变形 (LeCun et al., 2001). 


12.3 ”语音 识别 








语音 识别 任务 在 于 将 一 段 包 括 了 自然 语言 发 音 的 声学 信号 投影 到 对 应 说 话 人 的 
词 序列 上 。 S X= (zDD,22),..., zw 了) 表示 语音 的 输入 向 量 (传统 做 法 以 20ms 为 
一 帧 分 割 信号 )。 许 多 语音 识别 的 系统 通过 特殊 的 手工 设计 方法 预 处 理 输入 信号 ， 从 
而 提取 特征 , 但 是 某 些 深度 学 习 系 统 (Jaitly and Hinton, 2011) 直接 从 原始 输入 中 学 
习 特 征 。 令 y = (y1,y2,---, yn) 表示 目标 的 输出 序列 (通常 是 一 个 词 或 者 字符 的 序 
列 )。 自 动 语音 识别 ( Automatic Speech Recognition, ASR ) 任务 指 的 是 构造 一 个 函 
数 fon， 使 得 它 能 够 在 给 定 声学 序列 X 的 情况 下 计算 最 有 可 能 的 语言 序列 y: 


frsn(X)=argmaxP’(y | X = X), (12.4) 
y 





其 中 P* 是 给 定 输入 值 X LAK y 的 真实 条 件 分 布 。 

从 20 世纪 80 年 代 直 到 约 2009-2012 年 ， 最 先进 的 语音 识别 系统 是 隐 马 尔 可 夫 
模型 ( Hidden Markov Model, HMM ) 和 高 斯 混合 模型 ( Gaussian Mixture Model, 
GMM ) 的 结合 。GMM 对 声学 特征 和 音素 (phoneme ) 之 间 的 关系 建 模 (Bahl et al., 
1987), HMM 对 音素 序列 建 模 。GMM-HMM 模型 将 语音 信和 号 视 作 由 如 下 过 程 生成 : 
首先 ,一 个 HMM 生成 了 一 个 音素 的 序列 以 及 离散 的 子音 素 状 态 (比如 每 一 个 音 
素 的 开始 ， 中 间 ， 结 尾 )， 然 后 GMM 把 每 一 个 离散 的 状态 转化 为 一 个 简短 的 声 
音信 号 。 尽 管 直到 最 近 GMM-HMM 一 直 在 ASR 中 占据 主导 地 位 ,语音 识别 仍然 
是 神经 网 络 所 成 功 应 用 的 第 一 个 领域 。 从 20 世纪 80 年 代 末 期 到 90 年 代 初 期 ， 大 
量 语音 识别 系统 使 用 了 神经 网 络 (Bourlard and Wellekens, 1989; Waibel et al., 1989; 
Robinson and Fallside, 1991; Bengio et al., 1991, 1992; Konig et al., 1996)。 当 时 , 基 
于 神经 网 络 的 ASR 的 表现 和 GMM-HMM 系统 的 表现 差不多 。 比 如 说 ，Robinson 
and Fallside (1991) 在 TIMIT 数据 集 (Garofolo et al., 1993) (有 39 个 区 分 的 音素 ) 
上 达到 了 26% 的 音素 错误 率 ， 这 个 结果 优 于 或 者 说 是 可 以 与 基于 HMM 的 结果 相 
比 。 从 那 时 起 ，TIMIT 成 为 了 音素 识别 的 一 个 基准 数据 集 ， 在 语音 识别 中 的 作用 就 
和 MNIST 在 对 象 识别 中 的 作用 差不多 。 然 而 ， 由 于 语音 识别 软件 系统 中 复杂 的 工 
程 因 素 以 及 在 基于 GMM-HMM 的 系统 中 已 经 付出 的 巨大 努力 ， 工 业界 并 没有 迫切 
转向 神经 网 络 的 需求 。 结 果 ， 直 到 21 世纪 00 年 代 末 期 ， 学术 界 和 工业 界 的 研究 者 
们 更 多 的 是 用 神经 网 络 为 GMM-HMM 系统 学 习 一 些 额 外 的 特征 。 
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之 后 ， 随 着 更 大 更 深 的 模型 以 及 更 大 的 数据 集 的 出 现 ， 通 过 使 用 神经 网 络 代 
P GMM 来 实现 将 声学 特征 转化 为 音素 ( 或 者 子音 素 状态 ) 的 过 程 可 以 大 大 地 提高 
识别 的 精度 。 从 2009 年 开始 ， 语 音 识 别 的 研究 者 们 将 一 种 无 监督 学 习 的 深度 学 习 方 
法 应 用 于 语音 识别 。 这 种 深度 学 习 方 法 基于 训练 一 个 被 称 作 是 受 限 玻 尔 效 曼 机 的 无 
向 概率 模型 ， 从 而 对 输入 数据 建 模 。 受 限 玻 尔 效 曼 机 将 会 在 第 三 部 分 中 描述 。 为 了 完 
成 语音 识别 任务 ， 无 监督 的 预 训练 被 用 来 构造 一 个 深度 前 馈 网 络 ， 这 个 神经 网 络 每 
一 层 都 是 通过 训练 受 限 玻 尔 兹 曼 机 来 初始 化 的 。 这 些 网 络 的 输入 是 从 一 个 固定 规格 
的 输入 窗 ( 以 当前 帧 为 中 心 ) 的 谱 声学 表示 抽取 ， 预 测 了 当前 帧 所 对 应 的 HMM AR 
态 的 条 件 概 率 。 训 练 一 个 这 样 的 神经 网 络 能 够 可 以 显著 提高 在 TIMIT 数据 集 上 的 
识别 率 (Mohamed et al., 2009, 2012a), ， 并 将 音素 级 别 的 错误 率 从 大 约 26% 降 到 了 
20.7%。 关 于 这 个 模型 成 功 原 因 的 详细 分 析 可 以 参考 Mohamed et al. (2012b)。 对 于 
基本 的 电话 识别 工作 流程 的 一 个 扩展 工作 是 添加 说 话 人 自 适应 相关 特征 (Mohamed 
et aL, 2011) 的 方法 ， 这 可 以 进一步 地 降低 错误 率 。 紧 接着 的 工作 则 将 结构 从 音素 识 
别 (TIMIT 所 主要 关注 的 ) 转向 了 大 规模 词汇 语音 识别 (Dahl et al., 2012)， 这 不 仅 
包含 了 识别 音素 ， 还 包括 了 识别 大 规模 词汇 的 序列 。 语 音 识别 上 的 深度 网 络 从 最 初 
的 使 用 受 限 玻 尔 兹 曼 机 进行 预 训练 发 展 到 了 使 用 诸如 整流 线性 单元 和 Dropout 这 样 
的 技术 (Zeiler et al., 2013; Dahl et al., 2013)。 从 那 时 开始 ， 工 业界 的 几 个 语音 研究 
组 开始 寻求 与 学 术 圈 的 研究 者 之 间 的 合作 。Hinton et al. (2012a) 描述 了 这 些 合作 所 
带 来 的 突破 性 进展 ， 这 些 技术 现在 被 广泛 应 用 在 产品 中 ， 比 如 移动 手机 端 。 

随后 ， 当 研究 组 使 用 了 越 来 越 大 的 带 标签 的 数据 集 ， 加 入 了 各 种 初始 化 ， 训 练 
方法 以 及 调试 深度 神经 网 络 的 结构 之 后 ， 他 们 发 现 这 种 无 监督 的 预 训练 方式 是 没有 
必要 的 ;或 者 说 不 能 带 来 任何 显著 的 改进 。 

用 语音 识别 中 词 错 误 率 来 衡量 ， 在 语音 识别 性 能 上 的 这 些 突破 是 史无前例 的 
(大 约 30% 的 提高 )。 在 这 之 前 的 长 达 十 年 左右 的 时 间 内 ， 尽 管 数 据 集 的 规模 是 随时 
间 增 长 的 ( 见 Deng and Yu (2014) 的 图 2.4), 但 基于 GMM-HMM 的 系统 的 传统 技 
术 已 经 停滞 不 前 了 。 这 也 导致 了 语音 识别 领域 快速 地 转向 深度 学 习 的 研究 。 在 大 约 
的 两 年 时 间 内 ， 工 业界 的 大 多 数 的 语音 识别 产品 都 包含 了 深度 神经 网 络 ， 这 种 成 功 
也 激发 了 ASR 领 域 对 深度 学 习 算 法 和 结构 的 一 波 新 的 研究 浪潮 ， 并 且 影 响 至 今 。 

其 中 的 一 个 创新 点 是 卷 积 网 络 的 应 用 (Sainath et al., 2013)。 卷 积 网 络 在 时 域 与 
频 域 上 复 用 了 权重 ,改进 了 之 前 的 仅 在 时 域 上 使 用 重复 权 值 的 时 延 神经 网 络 。 这 种 
新 的 二 维 的 卷 积 模型 并 不 是 将 输入 的 频谱 当 作 一 个 长 的 向 量 ， 而 是 当成 是 一 个 图 像 ， 
其 中 一 个 轴 对 应 着 时 间 ， 另 一 个 轴 对 应 的 是 谱 分 量 的 频率 。 
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完全 抛弃 HMM 并 转向 研究 端 到 端的 深度 学 习 语 音 识别 系统 是 至 今 仍然 活跃 的 
另 一 个 重要 推动 。 这 个 领域 第 一 个 主要 的 突破 是 Graves et al. (2013), 其 中 训练 了 一 
个 深度 的 长 短期 记忆 循环 神经 网 络 ( 见 第 10.10 节 ), 使 用 了 帧 一 音素 排列 的 MAP HE 
Wr, WE LeCun et al. (2001) 以 及 CTC 框架 (Graves et al., 2006; Graves, 2012) 中 
一 样 。 一 个 深度 循环 神经 网 络 (Graves et al., 2013) 每 个 时 间 步 的 各 层 都 有 状态 变量 ， 
两 种 展开 图 的 方式 导致 两 种 不 同 深度 : 一 种 是 普通 的 根据 层 的 堆 友 衡量 的 深度 ， 另 
一 种 根据 时 间 展 开 衡量 的 深度。 这 个 工作 把 TIMIT 数据 集 上 音素 的 错误 率 记录 降 到 
了 的 新 低 17.7%。 关 于 应 用 于 其 他 领域 的 深度 循环 神经 网 络 的 变种 可 以 参考 Pascanu 
et al. (2014a); Chung et al. (2014)。 

另 一 个 端 到 端的 深度 学 习 语音 识别 方向 的 最 新 方法 是 让 系统 学 习 如 何 利用 语音 
(phonetic ) 层级 的 信息 “排列 ”声学 (acoustic ) 层级 的 信息 (Chorowski et al., 2014; 
Lu et al., 2015)。 














12.4 自然 语言 处 理 


自然 语言 处 理 (Natural Language Processing ) 让 计算 机 能 够 使 用 人 类 语言 , 例 
如 英语 或 法 语 。 为 了 让 简单 的 程序 能 够 高 效 明 确 地 解析 ， 计 算 机 程序 通常 读 取 和 发 
出 特殊 化 的 语言 。 而 自然 的 语言 通常 是 模糊 的 ， 并 且 可 能 不 遵循 形式 的 描述 。 自 然 
语言 处 理 中 的 应 用 如 机 器 翻译 ， 学 习 者 需要 读 取 一 种 人 类 语言 的 句子 ， 并 用 另 一 种 
人 类 语言 发 出 等 同 的 句子 。 许 多 NLP 应 用 程序 基于 语言 模型 ,语言 模型 定义 了 关于 
自然 语言 中 的 字 、 字 符 或 字 节 序列 的 概率 分 布 。 

与 本 章 讨 论 的 其 他 应 用 一 样 ， 非 常 通用 的 神经 网 络 技术 可 以 成 功 地 应 用 于 自然 
语言 处 理 。 然 而 , 为 了 实现 上 章 越 的 性 能 并 扩展 到 大 型 应 用 程序 , 一 些 领域 特定 的 策略 
也 很 重要 。 为 了 构建 自然 语言 的 有 效 模型 ,通常 必须 使 用 专门 处 理 序列 数据 的 技术 。 
在 很 多 情况 下 ， 我 们 将 自然 语言 视 为 一 系列 词 ， 而 不 是 单个 字符 或 字 节 序列 。 因 为 
可 能 的 词 总 数 非常 大 ， 基 于 词 的 语言 模型 必须 在 极 高 维度 和 稀 玻 的 离散 空间 上 操作 。 
为 使 这 种 空间 上 的 模型 在 计算 和 统计 意义 上 都 高 效 ， 研 究 者 已 经 开发 了 几 种 策略 。 























12.4.1 n-gram 


语言 模型 (language model) 定义 了 自然 语言 中 标记 序列 的 概率 分 布 。 根 据 模型 
的 设计 ,标记 可 以 是 词 、 字 符 、 其 至 是 字 节 。 标记 总 是 离散 的 实体 。 最 早 成 功 的 语言 
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模型 基于 固定 长 度 序列 的 标记 模型 ， 称 为 n-gram。 一 个 n-gram 是 一 个 包含 n 个 标 
记 的 序列 。 

基于 n-gram 的 模型 定义 一 个 条 件 概率 一 一 给 定 前 n 一 1 个 标记 后 的 第 n 个 标 
记 的 条 件 概 率 。 该 模型 使 用 这 些 条 件 分 布 的 乘积 定义 较 长 序列 的 概率 分 布 : 


Pi 22d) = PO ved) II PUR | Saints afe on - (12.5) 
t=n 
这 个 分 解 可 以 由 概率 的 链 式 法 则 证 明 。 初 始 序列 P(t... mua) 的 概率 分 布 可 以 通 
iB Un 值 的 不 同 模型 建 模 。 
训练 n-gram 模型 是 简单 的 ， 因 为 最 大 似 然 估计 可 以 通过 简单 地 统计 每 个 可 能 
的 n-gram 在 训练 集中 出 现 的 次 数 来 获得 。 几 十 年 来 ， 基 于 n-gram 的 模型 都 是 统 
计 语 言 模型 的 核心 模块 (Jelinek and Mercer, 1980; Katz, 1987; Chen and Goodman, 
1999)。 
对 于 小 的 n (E, 模型 有 特定 的 名 称 : n = 1 称 为 一 元 语法 Cunigram ), n = 2 称 
为 二 元 语法 (bigram ) 及 n = 3 称 为 三 元 语法 (trigram )。 这 些 名 称 源 于 相应 数字 
的 拉丁 前 级 和 希腊 后 级 “-gram”， 分 别 表示 所 写 之 物 。 
通常 我 们 同时 训练 n-gram 模型 和 n — 1 gram 模型 。 这 使 得 下 式 可 以 简单 地 通 
过 查找 两 个 存储 的 概率 来 计算 。 

Pls ads CLA yt) 
DPasdlts-aqis eed T) 
为 了 在 P, 中 精确 地 再 现 推 新 ， 我 们 训练 Pa- 时 必须 省 略 每 个 序列 最 后 一 个 字符 。 

举 个 例子 ， 我 们 演示 三 元 模型 如 何 计算 句子 “THE DOG RAN AWAY.” 的 概率 。 句 
子 的 第 一 个 词 不 能 通过 上 述 条 件 概率 的 公式 计算 ， 因 为 句子 的 开头 没有 上 下 文 。 取 
而 代 之 , 在 句子 的 开头 我 们 必须 使 用 词 的 边缘 概率 。 因 此 我 们 计算 PS(THE DOG RAN). 
最 后 ， 可 以 使 用 条 件 分 布 P(AWAY | DOG RAN) ( 典型 情况 ) 来 预测 最 后 一 个 词 。 将 这 
与 式 (12.6) 放 在 一 起 ， 我 们 得 到 : 


(12.6) 





Pe | t 一 PP 十 1) B. 1 ) 于 


P(THE DOG RAN AWAY) = P3(THE DOG RAN)P3(DOG RAN AWAY)/P;(DOG RAN). (12.7) 


n-gram 模型 最 大 似 然 的 基本 限制 是 ， 在 许多 情况 下 从 训练 集 计数 估计 得 到 的 
P, 很 可 能 为 零 ( 即使 元 组 (micas sss ,zt) 可 能 出 现在 测试 集中 )。 这 可 能 会 导致 
两 种 不 同 的 灾难 性 后 果 。 当 Phir 为 零 时 ， 该 比率 是 未 定义 的 ， 因 此 模型 甚至 不 能 
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产生 有 意义 的 输出 。 当 P, o. 非 零 而 P, 为 零 时 ， 测 试 样本 的 对 数 似 然 为 -co。 为 
避免 这 种 灾难 性 的 后 果 ， 大 多 数 n-gram 模型 采用 某 种 形式 的 平滑 (smoothing ) 。 
平 请 技术 将 概率 质量 从 观察 到 的 元 组 转移 到 类 似 的 未 观察 到 的 元 组 。 见 Chen and 
Goodman (1999) 的 综述 和 实验 对 比 。 其 中 一 种 基本 技术 基于 向 所 有 可 能 的 下 一 个 符 
号 值 添加 非 零 概 率 质 量 。 这 个 方法 可 以 被 证 明 是 ， 计 数 参 数 具 有 均匀 或 Dirichlet 先 
验 的 贝 叶 斯 推断 。 另 一 个 非常 流行 的 想法 是 包含 高 阶 和 低 阶 n-gram 模型 的 混合 模 
型 ， 其 中 高 阶 模 型 提供 更 多 的 容量 ， 而 低 阶 模型 尽 可 能 地 避免 零 计 数 。 如 果 上 下 文 
Zn ss Tid. 的 频率 太 小 而 不 能 使 用 高 阶 模型 ， 回 退 方 法 (back-off methods) 就 
查找 低 阶 n-gram 。 更 正式 地 说 ， 它 们 通过 上 下 文 Linek- ;Zt_1 估计 xz, 上 的 分 
布 ， 并 增加 k 直到 找到 足够 可 靠 的 估计 。 

经 典 的 n-gram 模型 特别 容易 引起 维 数 灾难 。 因 为 存在 |y|” 可 能 的 n-gram, 而 
且 |V| 通常 很 大 。 即 使 有 大 量 训练 数据 和 适当 的 n， 大 多 数 n-gram 也 不 会 出 现在 训 
练 集中 。 经典 n-gram 模型 的 一 种 观点 是 执行 最 近邻 查询 。 换 名 话说 ， 它 可 以 被 视 为 
局 部 非 参 数 预测 器 ， 类 似 于 大 最 近邻 。 这 些 极端 局 部 预测 器 面临 的 统计 问题 已 经 在 
第 5.11.2 节 中 描述 过 。 语言 模型 的 问题 其 至 比 普通 模型 更 严重 ,因为 任何 两 个 不 同 的 
词 在 one-hot 向 量 空 间 中 的 距离 彼此 相同 。 因 此 ， 难 以 大 量 利用 来 自任 意 “ 邻 居 ” 的 
信息 一 一 只 有 重复 相同 上 下 文 的 训练 样本 对 局 部 泛 化 有 用 。 为 了 克服 这 些 问题 ， 语 
言 模型 必须 能 够 在 一 个 词 和 其 他 语义 相似 的 词 之 间 共 享 知 识 。 

为 了 提高 n-gram 模型 的 统计 效率 ， 基 于 类 的 语言 模型 (class-based language 
model) (Brown et al., 1992; Ney and Kneser, 1993; Niesler et al., 1998) 引入 词类 别 
的 概念 ， 然 后 属于 同一 类 别 的 词 共享 词 之 间 的 统计 强度 。 这 个 想法 使 用 了 聚 类 算法 ， 
基于 它们 与 其 他 词 同 时 出 现 的 频率 ， 将 该 组 词 分 成 集群 或 类 。 随 后 ， 模 型 可 以 在 条 
件 竖 杠 的 右 侧 使 用 词类 ID 而 不 是 单个 词 ID。 混 合 (或 回 退 ) 词 模型 和 类 模型 的 复 
合 模型 也 是 可 能 的 。 尽 管 词 类 提供 了 在 序列 之 间 泛 化 的 方式 ， 但 其 中 一 些 词 被 相同 
类 的 另 一 个 替换 ， 导 致 该 表示 丢失 了 很 多 信息 。 




















12.4.2 ”神经 语言 模型 


神经 语言 模型 ( Neural Language Model, NLM ) 是 一 类 用 来 克服 维 数 灾难 的 语 
言 模型 ， 它 使 用 词 的 分 布 式 表示 对 自然 语言 序列 建 模 (Bengio et al., 2001b)。 不 同 于 
基于 类 的 n-gram 模型 ， 神 经 语言 模型 在 能 够 识别 两 个 相似 的 词 ， 并 且 不 丧失 将 每 个 
词 编码 为 彼此 不 同 的 能 力 。 神 经 语言 模型 共享 一 个 词 ( 及 其 上 下 文 ) 和 其 他 类 似 词 
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(和 上 下 文 之 间 ) 的 统计 强度 。 模 型 为 每 个 词 学 习 的 分 布 式 表示 ， 人 允许 模型 处 理 具有 
类 似 共同 特征 的 词 来 实现 这 种 共享 。 例 如 ， 如 果 词 dog 和 词 cat 映射 到 具有 许多 属 
性 的 表示 ,， 则 包含 词 cat 的 句子 可 以 告知 模型 对 包含 词 dog 的 句子 做 出 预测 , 反之 
亦 然 。 因 为 这 样 的 属性 很 多 ， 所 以 存在 许多 泛 化 的 方式 ， 可 以 将 信息 从 每 个 训练 语 
名 传递 到 指数 数量 的 语义 相关 语句 。 维 数 灾难 需要 模型 泛 化 到 指数 多 的 句子 〈 指数 
相对 句子 长 度 而 言 )。 该 模型 通过 将 每 个 训练 句子 与 指数 数量 的 类 似 句子 相关 联 克 服 
这 个 问题 。 

我 们 有 时 将 这 些 词 表示 称 为 FERA (word embedding )。 在 这 个 解释 下 , 我 们 将 
原始 符号 视 为 维度 等 于 词 表 大 小 的 空间 中 的 点 。 词 表示 将 这 些 点 怠 入 到 较 低 维 的 特 
征 空间 中 。 在 原始 空间 中 ， 每 个 词 由 一 个 one-hot 向 量 表示 ， 因 此 每 对 词 彼此 之 间 的 
欧 氏 距离 都 是 V2。 在 嵌入 空间 中 ， 经 常 出 现在 类 似 上 下 文 (或 共享 由 模型 学 习 的 一 
些 “特征 ”的 任何 词 对 ) 中 的 词 彼此 接近 。 这 通常 导致 具有 相似 含义 的 词 变 得 邻近 。 
图 12.3 放 大 了 学 到 的 词 嵌入 空间 的 特定 区 域 ， 我 们 可 以 看 到 语义 上 相似 的 词 如 何 映 
射 到 彼此 接近 的 表示 。 
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图 12.3: PAZ Las PER SY te i A AY EY AWE (Bahdanau et aL, 2015)。 此 图 在 语义 相 
Se RE DOBORCK , EECA BBA TREES ICE, SEA. wE, CHER A 
是 为 了 可 视 化 才 表示 为 2 UE. XESCPRAMHH A, fe ASAT EU Ses EF RT EA FT RSE fl i 8 ze [8] 
多 种 相似 性 。 


























其 他 领域 的 神经 网 络 也 可 以 定义 怠 人。 例如 ， 卷 积 网 络 的 隐藏 层 提 供 “图 像 赂 
入 ”。 因 为 自然 语言 最 初 不 在 实 值 向 量 空间 上 ， 所 以 NLP 从 业者 通常 对 藤 入 的 这 个 
想法 更 感 兴趣 。 隐 藏 层 在 表示 数据 的 方式 上 提供 了 更 质变 的 戏剧 性 变化 。 
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使 用 分 布 式 表 示 来 改进 自然 语言 处 理 模型 的 基本 思想 不 必 局 限于 神经 网 络 。 它 
还 可 以 用 于 图 模型 ， 其 中 分 布 式 表示 是 多 个 潜 变 量 的 形式 。 


12.4.3 ”高 维 输 出 


在 许多 自然 语言 应 用 中 ， 我们 通常 希望 我 们 的 模型 产生 词 ( 而 不 是 字符 ) 作为 
输出 的 基本 单位 。 对 于 大 词汇 表 ， 由 于 词汇 量 很 大 , 在 词 的 选择 上 表示 输出 分 布 的 计 
算 成 本 可 能 非常 高 。 在 许多 应 用 中 ,，V 包含 数 十 万 词 。 表 示 这 种 分 布 的 朴素 方法 是 
应 用 一 个 仿 射 变换 ， 将 隐藏 表示 转换 到 输出 空间 ， 然 后 应 用 softmax 函数 。 假 设 我 
们 的 词汇 表 V 大 小 为 |V|。 因 为 其 输出 维 数 为 |V|， 描 述 该 仿 射 变换 线性 分 量 的 权重 
和 矩阵 非常 大 。 这 造成 了 表示 该 矩阵 的 高 存储 成 本 ， 以 及 与 之 相 乘 的 高 计算 成 本 。 
为 softmax 要 在 所 有 |V| 输出 之 间 归 一 化 ， 所 以 在 训练 时 以 及 测试 时 执行 全 和 矩阵 乘 
法 是 必要 的 一 一 我 们 不 能 仅 计算 与 正确 输出 的 权重 向 量 的 点 积 。 因 此 ， 输 出 层 的 高 
计算 成 本 在 训练 期 间 〈 计算 似 然 性 及 其 梯度 ) 和 测试 期 间 (计算 所 有 或 所 选 词 的 概 
28) 都 有 出 现 。 对 于 专门 的 损失 函数 ， 可 以 有 效 地 计算 梯度 (Vincent et al., 2015), 
但 是 应 用 于 传统 softmax 输出 层 的 标准 交叉 炉 损 失 时 会 出 现 许多 困难 。 

假设 h 是 用 于 预测 输出 概率 的 顶部 隐藏 层 。 如 果 我 们 使 用 学 到 的 权重 W 和 
学 到 的 偏 置 b 参数 化 从 h 到 的 变换 ， 则 仿 射 softmax 输出 层 执行 以 下 计算 : 





a; = bi MWh; Ni € {1,...,|V|}, (12.8) 


J 
a 


"Wa es 
如 果 h 包含 n, 个 元 素 ， 则 上 述 操作 复杂 度 是 O([V|na)s FE nr, KATA [V| 数 十 
万 的 情况 下 ， 这 个 操作 占据 了 神经 语言 模型 的 大 多 数 计算 。 


ji (12.9) 


12.4.3.1 ”使 用 短 列表 





第 一 个 神经 语言 模型 (Bengio et al., 2001b, 2003) 通过 将 词汇 量 限 制 为 10,000 
或 20,000 来 减轻 大 词汇 表 上 softmax 的 高 成 本 。Schwenk and Gauvain (2002) 和 
Schwenk (2007) 在 这 种 方法 的 基础 上 建立 新 的 方式 ， 将 词汇 表 V 分 为 最 常见 词汇 
(由 神经 网 络 处 理 ) 的 短 列 表 (shortlist) IL MARA TILA EIN T = VNL ( Hn- 
gram 模 型 处 理 )。 为 了 组 合 这 两 个 预测 ， 神 经 网 络 还 必须 预测 在 上 下 文 C 之 后 出 现 


ww ai bbc. com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
396 第 十 二 章 ”应 用 


的 词 位 于 尾 列表 的 概率 。 我 们 可 以 添加 额外 的 sigmoid 输出 单元 估计 P(i eT |C) 
实现 这 个 预测 。 人 额外 输出 则 可 以 用 来 估计 V 中 所 有 词 的 概率 分 布 ， 如 下 : 


Ply=1i|C)=liexP(y=i|C,ieL)(1 -— P €T |C)) 
t LerP(y-i|C,i € T)P(i € T | C), (12.10) 


其 中 P(y=i| C,ie L) 由 神经 语言 模型 提供 P(y—i| Cie T) 由 n-gram 模型 提 
供 。 稍 作 修改 ， 这 种 方法 也 可 以 在 神经 语言 模型 模型 的 softmax 层 中 使 用 额外 的 输 
出 值 ， 而 不 是 单独 的 sigmoid 单元 。 

短 列 表 方 法 的 一 个 明显 缺点 是 ， 神 经 语言 模型 的 淤 在 泛 化 优势 仅 限 于 最 常用 的 
词 ， 这 大 概 是 最 没 用 的 。 这 个 缺点 引发 了 处 理 高 维 输出 替代 方法 的 探索 ， 如 下 所 述 。 


12.4.3.2 ”分 层 Softmax 


减少 大 词汇 表 V 上 高 维 输出 层 计算 负担 的 经 典 方法 (Goodman, 2001) 是 分 层 地 
分 解 概率 。|V| 因子 可 以 降低 到 log |V| 一 样 低 ， 而 无 需 执行 与 |V 成 比例 数量 ( 并 且 
也 与 隐藏 单元 数量 mw 成 比例 ) 的 计算 。Bengio (2002) 和 Morin and Bengio (2005) 
将 这 种 因子 分 解 方法 引入 神经 语言 模型 中 。 

我 们 可 以 认为 这 种 层次 结构 是 先 建立 词 的 类 别 ， 然 后 是 词类 别 的 类 别 ， 然 后 是 
词类 别 的 类 别 的 类 别 等 等 。 这 些 般 套 类 别 构成 一 棵 树 ， 其 叶子 为 词 。 在 平衡 树 中 ， 
树 的 深度 为 log |V|。 选 择 一 个 词 的 概率 是 由 路 径 ( 从 树 根 到 包含 该 词 叶 子 的 路 径 ) 
上 上 的 每 个 节点 通 向 该 词 分 支 概率 的 乘积 给 出 。 图 12.4 是 一 个 简单 的 例子 。Mnih and 
Hinton (2009) 也 描述 了 使 用 多 个 路 径 来 识别 单个 词 的 方法 ， 以 便 更 好 地 建 模 具有 多 
个 含义 的 词 。 计 算 词 的 概率 则 涉及 在 导向 该 词 所 有 路 径 上 的 求 和 。 

为 了 预测 树 的 每 个 节点 所 需 的 条 件 概 率 ， 我 们 通常 在 树 的 每 个 节点 处 使 用 多 加 
回归 模型 ， 并 且 为 所 有 这 些 模型 提供 与 输入 相同 的 上 下 文 C。 因 为 正确 的 输出 编码 
在 训练 集中 , 我 们 可 以 使 用 监督 学 习 训 练 逻 辑 回 归 模 型 。 我 们 通常 使 用 标准 交叉 粹 损 
失 ， 对 应 于 最 大 化 正确 判断 序列 的 对 数 似 然 。 

因为 可 以 高 效 地 计算 输出 对 数 似 然 ( 低 至 log [V] 而 不 是 |V| )， 所 以 也 可 以 高 效 
地 计算 梯度 。 这 不 仅 包 括 关 于 输出 参数 的 梯度 ， 而 且 还 包括 关于 隐藏 层 激活 的 梯度 。 

优化 树 结 构 最 小 化 期 望 的 计算 数量 是 可 能 的 ， 但 通常 不 切实 际 。 给 定 词 的 相对 
频率 ， 信 息 理 论 的 工具 可 以 指定 如 何 选择 最 佳 的 二 进 制 编码 。 为 此 ， 我 们 可 以 构造 
树 , 使 得 与 词 相 关联 的 位 数量 近似 等 于 该 词 频率 的 对 数 。 然 而 在 实践 中 , 节省 计算 通 
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(0,0,0) (0,0,1) (0,1,0) (0,1,1) (1,0,0) (1,0,1) (1,1,0) (1,1,1) 


图 12.4: 词类 别 简单 层次 结构 的 示意 图 ， 其 中 8 个 词 wo,...,w7 组 织 成 三 级 层次 结构 。 树 的 叶 
子 表示 实际 特定 的 词 。 内 部 节点 表示 词 的 组 别 。 任 何 节点 都 可 以 通过 二 值 决策 序列 (0= AE, l= 
A) 索引 ， 从 根 到 达 节 点 。 超 类 (0) 包含 类 (0,0) 和 (0, 1), 其 中 分 别 包含 词 (wo, wi} 和 (w2, ws} 
的 集合 ， 类 似 地 超 类 (1) 包含 类 (1,0) 和 (1 1)， 分 别 包含 词 (wa, ws) 和 {we,2w7}。 如 果树 充分 
平衡 ， 则 最 大 深度 (三 值 决策 的 数量 ) 与 词 数 |V| 的 对 数 同 阶 ， 从 |V| 个 词 中 选 一 个 词 只 需 执行 
O(log|V|) 次 操作 ( 从 根 开始 的 路 径 上 的 每 个 节点 一 次 操作 )。 在 该 示例 中 ， 我 们 乘 三 次 概率 就 能 
计算 词 y 的 概率 ， 这 三 次 概率 与 从 根 到 节点 y 的 路 径 上 每 个 节点 向 左 或 向 右 的 二 值 决 策 相 关联 。 
令 bily) 为 遍历 树 移 向 y 时 的 第 i 个 二 值 决策 。 对 输出 y 进行 采样 的 概率 可 以 通过 条 件 概率 的 链 
式 法 则 分 解 为 条 件 概 率 的 乘积 ， 其 中 每 个 节点 由 这 些 位 的 前 级 索引 。 例如 ,节点 (1,0) 对 应 于 前 级 
(bo(wa) = 1,b1(w4) =0)， 并 且 wa 的 概率 可 以 如 下 分 解 : 

































































P(y wa) P(bo 1, bi 0, ba 0) (12.11) 
= P(bo = 1)P(bi = 0| bo = 1)P(b2 = 0| bo = 1,b1 = 0). (12.12) 
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稼 事倍功半 ， 因 为 输出 概率 的 计算 仅 是 神经 语言 模型 中 总 计算 的 一 部 分 。 例 如 ， 假 
WA | 个 全 连接 的 宽度 为 na 的 隐藏 层 。 令 ny 是 识别 一 个 词 所 需 比 特 数 的 加 权 平 均 
值 ， 其 加 权 由 这 些 词 的 频率 给 出 。 在 这 个 例子 中 ， 计 算 隐 藏 激活 所 需 的 操作 数 增长 
为 Olling), MiB Oln) RÆ ny < inn, 我们 可 以 通过 收缩 na EE 
收缩 ny 减少 更 多 的 计算 量 。 事 实 上 ，wn 通常 很 小 。 因 为 词汇 表 的 大 小 很 少 超过 一 
百 万 而 log,(10°) 20， 所 以 可 以 将 np 减 小 到 大 约 20, 但 n, WEKE, KAIN 
10? 或 更 大 。 我 们 可 以 定义 深度 为 2 和 分 支 因子 为 VIT| 的 树 ， 而 不 用 仔细 优化 分 支 
因子 为 2 的 树 。 这 样 的 树 对 应 于 简单 定义 一 组 互 斥 的 词类 。 基 于 深度 为 2 的 树 的 简 
单方 法 可 以 获得 层级 策略 大 部 分 的 计算 益处 。 

一 个 仍然 有 点 开放 的 问题 是 如 何 最 好 地 定义 这 些 词 类 ， 或 者 如 何 定义 一 般 的 词 
层次 结构 。 早 期 工作 使 用 现 有 的 层次 结构 (Morin and Bengio, 2005) ， 但 也 可 以 理想 
地 与 神经 语言 模型 联合 学 习 层 次 结构 。 学 习 层 次 结构 很 困难 。 对 数 似 然 的 精确 优化 
似乎 难以 解决 ， 因 为 词 层次 的 选择 是 离散 的 ， 不 适 于 基于 梯度 的 优化 。 然 而 ， 我 们 
可 以 使 用 离散 优化 来 近似 地 最 优化 词类 的 分 割 。 

分 层 softmax 的 一 个 重要 优点 是 ， 它 在 训练 期 间 和 测试 期 间 ( 如果 在 测试 时 我 
们 想 计算 特定 词 的 概率 ) 都 带 来 了 计算 上 的 好 处 。 

当然 即使 使 用 分 层 softmax， 计 算 所 有 [V] 个 词 概率 的 成 本 仍 是 很 高 的 。 另 一 个 
重要 的 操作 是 在 给 定 上 下 文中 选择 最 可 能 的 词 。 不 幸 的 是 ， 树 结构 不 能 为 这 个 问题 
提供 高 效 精确 的 解决 方案 。 

缺点 是 在 实践 中 , 分 层 softmax 倾向 于 更 差 的 测试 结果 ( 相对 基于 采样 的 方法 )， 
我 们 将 在 下 文 描述 。 这 可 能 是 因为 词类 选择 得 不 好 。 





12.4.8.3 ”重要 采样 


加 速 神经 语言 模型 训练 的 一 种 方式 是 ， 避 免 明 确 地 计算 所 有 未 出 现在 下 一 位 置 
的 词 对 梯度 的 贡献 。 每 个 不 正确 的 词 在 此 模型 下 具有 低 概率 。 枚 举 所 有 这 些 词 的 计 
算 成 本 可 能 会 很 高 。 相 反 ， 我 们 可 以 仅 采 样 词 的 子 集 。 使 用 式 (12.8) 中 引入 的 符号 ， 
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梯度 可 以 写成 如 下 形式 : 
alog P(y | C) _ Olog softmax, (a) 





30 a (12.13) 
o e?" 
= 88 P8 ea (12.14) 
gv 一 log) e") (12.15) 
I" 
p (12.16) 


其 中 a 是 presoftmax 激活 (或 得 分 ) 向 量 ， 每 个 词 对 应 一 个 元 素 。 第 一 项 是 正 相 
(positive phase) 项 ， 推 动 a, 向 上 ; 而 第 二 项 是 负 相 (negative phase) 项 ， 对 于 所 有 
i 以 权重 P(i | C) 推动 a; 向 下 。 由 于 负 相 项 是 期 望 值 ， 我 们 可 以 通过 蒙特 卡 罗 采 样 
估计 。 然 而 ， 这 将 需要 从 模型 本 刁 采 样 。 从 模型 中 采样 需要 对 词汇 表 中 所 有 的 i 计 

P(i| C)， 这 正 是 我 们 试图 避免 的 。 

我 们 可 以 从 另 一 个 分 布 中 采样 ， 而 不 是 从 模型 中 采样 ， 这 个 分 布 称 为 提议 分 布 
(proposal distribution ) (WX q )， 并 通过 适当 的 权重 校正 从 错误 分 布 采 样 引 入 的 偏 
差 (Bengio and Sénécal, 2003; Bengio and Sénécal, 2008)。 这 是 一 种 称 为 重要 采样 
(Importance Sampling ) 的 更 通用 技术 的 应 用 ， 我 们 将 在 第 12.4.3.3 节 中 更 详细 地 描 
述 。 不 幸 的 是 ， 即 使 精确 重要 采样 也 不 一 定 有 效 ， 因 为 我 们 需要 计算 权重 zi/w H 
中 的 p; = P(i | C) 只 能 在 计算 所 有 得 分 a; 后 才能 计算 。 这 个 应 用 采取 的 解决 方案 
称 为 有 偏重 要 采样 ， 其 中 重要 性 权重 被 归 一 化 加 和 为 1。 当 对 负 词 n; 进行 采样 时 ， 
相关 联 的 梯度 被 加 权 为 : 








"REEL (12.17) 


3:234 de 
这 些 权 重用 于 对 来 自 q 的 m 个 负 样 本 给 出 适当 的 重要 性 ， 以 形成 负 相 估 计 对 梯度 的 
贡献 


= 


M oT we "^. Aan, 

2.8 io, not c (12.18) 

一 元 语法 或 二 元 语法 分 布 与 提议 分 布 q 工作 得 一 样 好 。 从 数据 估计 这 种 分 布 的 参数 
是 很 容易 。 在 估计 参数 之 后 ， 也 可 以 非常 高 效 地 从 这 样 的 分 布 采样 。 


重要 采样 (Importance Sampling) 不 仅 可 以 加 速 具有 较 大 softmax 输出 的 模 
型 。 更 一 般 地 ， 它 可 以 加 速 具 有 大 稀 玻 输出 层 的 训练 ， 其 中 输出 是 稀 朴 回 量 而 不 是 
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n 选 1。 其 中 一 个 例子 是 WS (bag of words), iS ECG Mii elt v, Hor v; 表示 
词汇 表 中 的 词 i 存 不 存在 文档 中 。 或 者 ，vw; 可 以 指示 词 i 出 现 的 次 数 。 由 于 各 种 原 
因 ， 训 练 产 生 这 种 稀 鸣 向 量 的 机 融 学 习 模 型 的 成 本 可 能 很 高 。 在 学 习 的 早期 ， 模 型 
可 能 不 会 真 的 使 输出 真正 稀 琉 。 此 外 ， 将 输出 的 每 个 元 素 与 目标 的 每 个 元 素 进行 比 
较 ， 可 能 是 描述 训练 的 损失 函数 最 自然 的 方式 。 这 意味 着 稀 琉 输出 并 不 一 定 能 带 来 
计算 上 的 好 处 ， 因 为 模型 可 以 选择 使 大 多 数 和 输出 非 零 ， 并 且 所 有 这 些 非 零 值 需要 与 
相应 的 训练 目标 进行 比较 (即使 训练 目标 是 零 )。Dauphin et al. (2011) 证 明 可 以 使 
用 重要 采样 加 速 这 种 模型 。 高 效 算法 最 小 化 “ 正 词 ”( 在 目标 中 非 零 的 那些 词 ) 和 相 
等 数量 的 “ 负 词 ”的 重 构 损失 。 负 词 是 被 随机 选取 的 ， 如 使 用 启发 式 采样 更 可 能 被 误 
解 的 词 。 该 启发 式 过 采样 引入 的 偏差 则 可 以 使 用 重要 性 权重 校正 。 

在 所 有 这 些 情况 下 ， 输 出 层 梯度 估计 的 计算 复杂 度 被 减少 为 与 负 样 本 数量 成 比 
例 ， 而 不 是 与 输出 向 量 的 大 小 成 比例 。 




















12.4.3.4 ”噪声 对 比 估 计 和 排名 损失 


为 减少 训练 大 词汇 表 的 神经 语言 模型 的 计算 成 本 ， 研 究 者 也 提出 了 其 他 基于 采 
样 的 方法 。 早 期 的 例子 是 Collobert and Weston (2008a) 提出 的 排名 损失 ,将 神经 语 
言 模型 每 个 词 的 输出 视 为 一 个 得 分 ， 并 试图 使 正确 词 的 得 分 ay 比 其 他 词 a; 排名 更 
高 。 提 出 的 排名 损失 则 是 


L =~ max(0,1 — a, + ai). (12.19) 


如 果 观 察 到 词 的 得 分 wy 远 超 过 负 词 的 得 分 a; (相差 大 于 1), WE i 项 梯度 为 零 。 
这 个 准则 的 一 个 问题 是 它 不 提供 估计 的 条 件 概率 ， 条 件 概 率 在 很 多 应 用 中 是 有 用 的 ， 
包括 语音 识别 和 文本 生成 ( 包括 诸如 翻译 的 条 件 文本 生成 任务 )。 

最 近 用 于 神经 语言 模型 的 训练 目标 是 噪声 对 比 估计 ， 将 在 第 18.6 节 中 介绍 。 这 
种 方法 已 成 功 应 用 于 神经 语言 模型 (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 
2013)。 


12.4.4 结合 n-gram 和 神经 语言 模型 


n-gram 模型 相对 神经 网 络 的 主要 优点 是 n-gram 模型 具有 更 高 的 模型 容量 ( 通 
过 存储 非常 多 的 元 组 的 频率 )， 并 且 处 理 样本 只 需 非常 少 的 计算 量 ( 通过 查找 只 匹配 
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当前 上 下 文 的 几 个 元 组 )。 如 果 我 们 使 用 哈 希 表 或 树 来 访问 计数 , 那么 用 于 n-gram 的 
计算 量 几乎 与 容量 无 关 。 相 比 之 下 ， 将 神经 网 络 的 参数 数目 加 倍 通常 也 大 致 加 倍 计 
算 时 间 。 当 然 ， 避 人 免 每 次 计算 时 使 用 所 有 参数 的 模型 是 一 个 例外 。 骨 入 层 每 次 只 索 
引 单个 租 入 ， 所 以 我 们 可 以 增加 词汇 量 ， 而 不 会 增加 每 个 样本 的 计算 时 间 。 一 些 其 
他 模型 ， 例 如 平 铺 卷 积 网 络 ， 可 以 在 减少 参数 共享 程度 的 同时 添加 参数 以 保持 相同 
的 计算 量 。 然 而 ， 基 于 矩阵 乘法 的 典型 神经 网 络 层 需要 与 参数 数量 成 比例 的 计算 量 。 

因此 ， 增 加 容量 的 一 种 简单 方法 是 将 两 种 方法 结合 ， 由 神经 语言 模型 和 n- 
gram 语言 模型 组 成 集成 (Bengio et al., 2001b, 2003). 

对 于 任何 集成 ,如果 集 成 成 员 产 生 独 立 的 错误 ,这 种 技术 可 以 减少 测试 误差 。 集 
成 学 习 领 域 提供 了 许多 方法 来 组 合集 成 成 员 的 预测 ， 包 括 统一 加 权 和 在 验证 集 上 选 
择 权重 。Mikolov et al. (2011a) 扩展 了 集成 ， 不 是 仅 包括 两 个 模型 ， 而 是 包括 大 量 
模型 。 我 们 也 可 以 将 神经 网 络 与 最 大 炉 模 型 配对 并 联合 训练 (Mikolov et al., 2011b)。 
该 方法 可 以 被 视 为 训练 具有 一 组 额外 输入 的 神经 网 络 ， 额 外 输入 直接 连接 到 输出 并 
且 不 连接 到 模型 的 任何 其 他 部 分 。 额 外 输入 是 输入 上 下 文中 特定 n-gram 是 否 存 在 
的 指示 器 ， 因 此 这 些 变量 是 非常 高 维 且 非常 稀 玻 的 。 

模型 容量 的 增加 是 巨大 的 ( 架构 的 新 部 分 包含 高 达 |sV|” 个 参数 )， 但 是 处 理 输 
入 所 需 的 额外 计算 量 是 很 小 的 ( 因为 额外 输入 非常 稀 玖 )。 














12.4.5 ”神经 机 器 翻译 





机 器 翻 译 以 一 种 自然 语言 读 取 句子 并 产生 等 同 含义 的 另 一 种 语言 的 句子 。 机 带 
翻译 系统 通常 涉及 许多 组 件 。 在 高 层次 , 一 个 组 件 通常 会 提出 许多 候选 翻译 。 由 于 语 
言 之 间 的 差异 ， 这 些 翻译 中 的 许多 翻译 是 不 符合 语法 的 。 例 如 ， 许 多 语言 在 名 词 后 
放置 形容 词 ， 因 此 直接 翻译 成 英语 时 ， 它 们 会 产生 诸如 “apple red” 的 短语 。 提 议 机 
制 提出 建议 翻译 的 许多 变 体 ， 理 想 情 况 下 应 包括 “red apple”。 翻 译 系统 的 第 二 个 组 
成 部 分 (语言 模型 ) 评估 提议 的 翻译 ， 并 可 以 评估 “red apple” 比 “apple red” 更 好 。 

最 早 的 机 器 翻译 神经 网 络 探索 中 已 经 纳入 了 编码 器 和 解码 器 的 想法 (Allen 1987; 
Chrisman 1991; Forcada and Neco 1997)， 而 翻译 中 神经 网 络 的 第 一 个 大 规模 有 竞 
争 力 的 用 途 是 通过 神经 语言 模型 升级 翻译 系统 的 语言 模型 (Schwenk et al., 2006; 
Schwenk, 2010)。 之 前 ， 大 多 数 机 器 翻译 系统 在 该 组 件 使 用 n-gram 模型 。 机 器 翻译 
中 基于 n-gram 的 模型 不 仅 包括 传统 的 回 退 n-gram RW, MARAIS See 
(maximum entropy language models)， 其 中 给 定 上 下 文中 常见 的 词 ，affine-softmax 
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层 预测 下 一 个 词 。 

传统 语言 模型 仅仅 报告 自然 语言 句子 的 概率 。 因 为 机 器 翻译 涉及 给 定 输入 句子 
产生 输出 句子 ， 所 以 将 自然 语言 模型 扩展 为 条 件 的 是 有 意义 的 。 如 第 6.2.1.1 节 所 述 
可 以 直接 地 扩展 一 个 模型 ， 该 模型 定义 某 些 变量 的 边缘 分 布 ， 以 便 在 给 定 上 下 文 
C (C 可 以 是 单个 变量 或 变量 列表 ) 的 情况 下 定义 该 变量 的 条 件 分 布 。Devlin et al. 
(2014) 在 一 些 统计 机 器 翻译 的 基准 中 击败 了 最 先进 的 技术 ， 他 给 定 源 语言 中 的 短语 
$1,82,...,S 后 使 用 MLP 对 目标 语言 的 短语 ty, te,..., te 进行 评分 。 这 个 MLP ff 
th P(ti,t2,..., te | $5,82,..., Sx)e 3X MLP 的 估计 替代 了 条 件 n-gram 模型 提供 的 
估计 。 

基于 MLP 方法 的 缺点 是 需要 将 序列 预 处 理 为 固定 长 度 。 为 了 使 翻译 更 加 灵活 ， 
我 们 希望 模型 允许 可 变 的 输入 长 度 和 输出 长 度 。RNN 具备 这 种 能 力 。 第 10.2.4 节 描 
述 了 给 定 某 些 输入 后 ， 关 于 序列 条 件 分 布 RNN 的 几 种 构造 方法 ， 并 且 第 10.4 节 描 
述 了 当 输 入 是 序列 时 如 何 实现 这 种 条 件 分 布 。 在 所 有 情况 下 ， 一 个 模型 首先 读 取 输 
入 序列 并 产生 概括 输入 序列 的 数据 结构 。 我 们 称 这 个 概括 为 “上 下 文 ” C。 上 下 文 C 
可 以 是 向 量 列 表 ， 或 者 向 量 或 张 量 。 读 取 输 入 以 产生 C 的 模型 可 以 是 RNN (Cho 
et al., 2014b; Sutskever et al., 2014; Jean et al., 2014) 或 卷 积 网 络 (Kalchbrenner and 
Blunsom, 2013)。 男 一 个 模型 (通常 是 RNN )， 则 读 取 上 下 文 C 并 且 生 成 目标 语言 
的 句子 。 在 图 12.5 中 展示 了 这 种 用 于 机 器 翻译 的 编码 器 -解码 器 框架 的 总 体 思想 。 

为 生成 以 源 句 为 条 件 的 整 句 , 模型 必须 具有 表示 整个 源 句 的 方式 。 早 期 模型 只 能 
表示 单个 词 或 短语 。 从 表示 学 习 的 观点 来 看 , 具有 相同 含义 的 句子 具有 类 似 表示 是 有 
用 的 , 无 论 它们 是 以 源 语言 还 是 以 目标 语言 书写 。 研究 者 首先 使 用 卷 积 和 RNN 的 组 
合 探索 该 策略 (Kalchbrenner and Blunsom, 2013)。 后 来 的 工作 介绍 了 使 用 RNN 对 
所 提议 的 翻译 进行 打分 (Cho et al., 2014b) 或 生成 翻译 句子 (Sutskever et al., 2014)。 
Jean et al. (2014) 将 这 些 模型 扩展 到 更 大 的 词汇 表 。 























12.4.5.1 ”使 用 注意 力 机 制 并 对 齐 数据 片段 


使 用 固定 大 小 的 表示 概括 非常 长 的 句子 (例如 60 个 词 ) 的 所 有 语义 细节 是 非 
第 困难 的 。 这 需要 使 用 足够 大 的 RNN， 并 且 用 足够 长 时 间 训 练 得 很 好 才能 实现 ， 如 
Cho et al. (2014b) 和 Sutskever et al. (2014) 所 表明 的 。 然 而 ， 更 高 效 的 方法 是 先 
读 取 整个 句子 或 段落 ( 以 获得 正在 表达 的 上 下 文 和 焦点 ) ， 然 后 一 次 翻译 一 个 词 ， 
每 次 聚焦 于 输入 句子 的 不 同 部 分 来 收集 产生 下 一 个 输出 词 所 需 的 语义 细节 。 这 正 
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图 12.5: 编码 咒 - 解 码 器 架构 在 直观 表示 〈 例如 词 序列 或 图 像 ) 和 语义 表示 之 间 来 回 映射 。 使 用 来 
自 一 种 模 态 数据 的 编码 顺和 输 出 〈 例如 从 法 语句 子 到 捕获 句子 含义 的 隐藏 表示 的 编码 器 映射 ) 作为 
用 于 另 一 模 态 的 解码 器 输入 如 解码 器 将 捕获 句子 含义 的 隐藏 表示 映射 到 英语 )， 我 们 可 以 训练 将 
一 种 模 态 转换 到 另 一 种 模 态 的 系统 。 这 个 想法 已 经 成 功 应 用 于 很 多 领域 ， 不 仅仅 是 机 器 翻译 ， 还 
包括 为 图 像 生成 标题 。 






































是 Bahdanau et al. (2015) 第 一 次 引入 的 想法 。 图 12.6 中 展示 了 注意 力 机 和 
个 时 间 步 关注 输入 序列 的 特定 部 分 。 
我 们 可 以 认为 基于 注意 力 机 制 的 系统 有 三 个 组 件 : 





cr 
Vid 
4 

+ 
zer 








。 读 取 咒 读 取 原 始 数据 (例如 源 语句 中 的 源 词 ) 并 将 其 转换 为 分 布 式 表示 ， 其 
一 个 特征 向 量 与 每 个 词 的 位 置 相关 联 。 


H 








o TENE i CERA SE on c PARP OE Dd ae AS A A A fh RKF PU Hi 
器 ， 而 之 后 不 必 以 相同 的 顺序 从 中 检索 ， 也 不 必 访 问 全 部 。 


e. 最 后 一 个 程序 利用 存储 顺 的 内 容 顺 序 地 执行 任务 ， 每 个 时 间 步 聚焦 于 某 个 存储 
器 元 素 的 内 容 《〈 或 几 个 ， 具 有 不 同 权重 )。 


第 三 组 件 可 以 生成 翻译 语句 。 

当 用 一 种 语言 书写 的 句子 中 的 词 与 另 一 种 语言 的 翻译 语句 中 的 相应 词 对 齐 时 ， 
可 以 使 对 应 的 词 嵌入 相关 联 。 早 期 的 工作 表明 ， 我 们 可 以 学习 将 一 种 语言 中 的 词 
蔚 入 与 为 一 种 语言 中 的 词 姐 入 相关 联 的 翻译 矩阵 (Kogisky et al., 2014)， 与 传统 
的 基于 短语 表 中 频率 计数 的 方法 相 比 ， 可 以 产生 较 低 的 对 齐 错误 率 。 更 早 的 工作 
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图 12.6: 由 Bahdanau et al. (2015) 引入 的 现代 注意 力 机 制 ， 本 质 上 是 加 权 平 均 。 注 意 力 机 制 对 有 具 
有 权重 oO 的 特征 向 量 RO 进行 加 权 平 均 形 成 上 下 文 向 量 ec。 在 一 些 应 用 中 ， 特 征 向 量 h 是 神经 
网 络 的 隐藏 单元 ， 但 它们 也 可 以 是 模型 的 原始 和 输入。 权重 aU 由 模型 本 身 产生 。 它 们 通常 是 区 间 
[0, 1] 中 的 值 ， 并 且 旨 在 仅仅 集中 在 单个 hO 周围 ， 使 得 加 权 平 均 精 确 地 读 取 接近 一 个 特定 时 间 
步 的 特征 向 量 。 权 重 oC 通常 由 模型 男 一 部 分 发 出 的 相关 性 得 分 应 用 softmax 函数 后 产生 。 注 意 
力 机 制 在 计算 上 需要 比 直接 索引 期 望 的 WO 付出 更 高 的 代价 ， 但 直接 索引 不 能 使 用 梯度 下 降 训 练 。 
基于 加 权 平 均 的 注意 力 机 制 是 平滑 、 可 微 的 近似 ， 可 以 使 用 现 有 优化 算法 训练 。 
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(Klementiev et al., 2012) 也 对 跨 语 言词 向 量 进 行 了 研究 。 这 种 方法 的 存在 很 多 扩展 。 
例如 ， 允 许 在 更 大 数据 集 上 训练 的 更 高 效 的 跨 语言 对 齐 (Gouws et al., 2014) 。 


12.4.6 ”历史 展望 


在 对 反 向 传播 的 第 一 次 探索 中 ，Rumelhart et al. (1986a) 等 人 提出 了 分 布 式 表 
示 符 号 的 思想 ， 其 中 符号 对 应 于 族 成 员 的 身份 ， 而 神经 网 络 捕获 族 成 员 之 间 的 关系 ， 
训练 样本 形成 三 元 组 如 (Colin, Mother, Victoria )。 神 经 网 络 的 第 一 层 学 习 每 个 族 
成 员 的 表示 。 例 如 ，Colin 的 特征 可 能 代表 Colin 所 在 的 族 树 ， 他 所 在 树 的 分 支 ， 他 
来 自 哪 一 代 等 等 。 我 们 可 以 将 神经 网 络 认 为 是 将 这 些 属性 关联 在 一 起 的 计算 学 习 规 
则 ， 可 以 获得 期 望 预 测 。 模 型 则 可 以 进行 预测 ， 例 如 推断 谁 是 Colin 的 母亲 。 

Deerwester et al. (1990) KITS BABIES D JR SIG] LAS ICE RR AEA 
SVD 学 习 。 之 后 ， 和 能 人 将 通过 神经 网 络 学 习 。 

自然 语言 处 理 的 历史 是 由 流行 表示 (对 模型 输入 不 同方 式 的 表示 ) 的 变化 为 
标志 的 。 在 早期 对 符号 和 词 建 模 的 工作 之 后 ， 神 经 网 络 在 NLP 上 一 些 最 早 的 应 用 
(Miikkulainen and Dyer; 1991; Schmidhuber, 1996) 将 输入 表示 为 字符 序列 。 


Bengio et al. (2001b) 将 焦点 重新 引 到 对 词 建 模 并 引入 神经 语言 模型 ， 能 产生 可 
解释 的 词 伐 入 。 这 些 神经 模型 已 经 从 在 一 小 组 符号 上 的 定义 表示 (20 世纪 80 年 代 ) 
扩展 到 现代 应 用 中 的 数 百 万 字 ( 包括 专 有 名 词 和 拼写 错误 )。 这 种 计算 扩展 的 努力 导 
致 了 第 12.4.3 节 中 描述 的 技术 发 明 。 

最 初 ， 使 用 词 作为 语言 模型 的 基本 单元 可 以 改进 语言 建 模 的 性 能 (Bengio et al., 
2001b)。 而 今 ， 新 技术 不 断 推动 基于 字符 (Sutskever et al., 2011) ) 和 基于 词 的 模型 
向 前 发 展 ， 最 近 的 工作 (Gillick et al., 2015) 甚至 建 模 Unicode 字符 的 单个 字 节 。 

神经 语言 模型 背后 的 思想 已 经 扩展 到 多 个 自然 语言 处 理应 用 ， 如 解析 (Hender- 
son, 2003, 2004; Collobert,，2011) 、 词 性 标注 、 语 义 角色 标注 、 分 块 等 ， 有 时 使 用 
共享 词 租 入 的 单一 多 任务 学 习 架 构 (Collobert and Weston, 2008a; Collobert et al., 
2011a)。 


随 着 t-SNE 降 维 算法 的 发 展 (van der Maaten and Hinton, 2008) 以 及 Joseph 
Turian 在 2009 年 引入 的 专用 于 可 视 化 词 凤 入 的 应 用 ， 用 于 分 析 语 言 模 型 脱 入 的 二 
维 可 视 化 成 为 一 种 流行 的 工具 。 
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12.5 ”其 他 应 用 





在 本 节 中 ， 我 们 介绍 深度 学 习 一 些 其 他 类 型 的 应 用 ， 它 们 与 上 面 讨论 的 标准 对 
象 识 别 、 语 音 识 别 和 自然 语言 处 理 任务 不 同 。 本 书 的 第 三 部 分 将 扩大 这 个 范围 ， 甚 
至 进一步 扩展 到 仍 是 目前 主要 研究 领域 的 任务 。 








12.5.1 ”推荐 系统 


言 息 技 术 部 门 中 机 需 学 习 的 主要 应 用 之 一 是 向 潜在 用 户 或 客户 推荐 项 目 。 这 可 
以 分 为 两 种 主要 的 应 用 : 在 线 广告 和 项 目 建 议 (通常 这 些 建 议 的 目的 仍然 是 为 了 销 
售 产品 )。 两 者 都 依赖 于 预测 用 户 和 项 目 之 间 的 关联 ， 一 旦 癌 该 用 户 展示 了 广告 或 推 
荐 了 该 产品 ， 推 荐 系统 要 么 预测 一 些 行为 的 概率 〈 用 户 购买 产品 或 该 行为 的 一 些 代 
TR) 或 预期 增益 〈 其 可 取决 于 产品 的 价值 )。 目 前 ， 互 联网 的 资金 主要 来 自 于 各 种 形 
式 的 在 线 广告 。 经 济 的 主要 部 分 依靠 网 上 购物 。 包 括 Amazon 和 eBay 在 内 的 公司 
都 使 用 了 机 器 学 习 〈 包 括 深度 学 习 ) 推荐 他 们 的 产品 。 有 时 ， 项 目 不 是 实际 出 售 的 
产品 。 如 选择 在 社交 网 络 新 闻 信息 流 上 显示 的 帖子 、 推 荐 观看 的 电影 、 推 荐 笑话 、 推 
荐 专家 建议 、 匹 配 视频 游戏 的 玩家 或 匹配 约会 的 人 。 

通常 ， 这 种 关联 问题 可 以 作为 监督 学 习 问 题 来 处 理 : 给 出 一 些 关于 项 目 和 关于 
用 户 的 信息 ， 预 测 感 兴 趣 的 行为 (用户 点 击 广 告 、 输 入 评级 、 点 击 “ 喜 欢 ” 按 钮 、 购 
买 产品 ， 在 产品 上 伦 钱 、 花 时 间 访 问 产品 页 面 等 )。 通 党 这 最 终 会 归结 到 回归 问题 
(预测 一 些 条 件 期 望 值 ) 或 概率 分 类 问题 ( 预测 一 些 离散 事件 的 条 件 概率 )。 

早期 推荐 系统 的 工作 依赖 于 这 些 预测 输入 的 最 小 信息 : 用 户 ID 和 项 目 ID. 在 
这 种 情况 下 ， 唯 一 的 泛 化 方式 依赖 于 不 同 用 户 或 不 同 项 目的 目标 变量 值 之 间 的 模式 
相似 性 。 假 设 用 户 1 和 用 户 2 都 喜欢 项 目 A，B 和 C. 由 此 ,我们 可 以 推断 出 用 户 
1 MHP 2 具有 类 似 的 口味 。 如 果 用 户 1 喜欢 项 上 日 D， 那么 这 可 以 强烈 提示 用 户 2 
也 喜欢 D。 基 于 此 原理 的 算法 称 为 协同 过 滤 collaborative filtering )。 非 参数 方法 
(例如 基于 估计 偏好 模式 之 间 相 似 性 的 最 近邻 方法 ) 和 参数 方法 都 可 能 用 来 解决 这 个 
问题 。 参 数 方法 通常 依赖 于 为 每 个 用 户 和 每 个 项 目 学 习 分 布 式 表 示 (AER AKA )。 
目标 变量 的 双 线 性 预测 ( 例如 评级 ) 是 一 种 简单 的 参数 方法 , 这 种 方法 非常 成 功 , 38 
第 被 认为 是 最 先进 系统 的 组 成 部 分 。 通 过 用 户 和 入 和 项 目 般 入 之 间 的 点 积 (可 能 需 
要 使 用 仅 依赖 于 用 户 ID 或 项 目 ID 的 常数 来 校正 ) 获得 预测 。 令 REBER 
WEE, A 和 矩阵 行 中 是 用 户 般 和 信 ，B 和 矩阵 列 中 具有 项 目 般 入 。 令 b 和 e 是 分 别 包 
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含 针 对 每 个 用 户 ( 表示 用 户 平常 坏 脾 气 或 积极 的 程度 ) 以 及 每 个 项 目 (表示 其 大 体 
受 欢 迎 程度 ) 的 偏 置 向 量 。 因 此 ， 双 线性 预测 如 下 获得 : 
Rui = bu ci M ALB; (12.20) 
J 

通常 ， 人 们 希望 最 小 化 预测 评级 Rai 和 实际 评级 Rui IAPR AT VES “APA 
和 项 目 舱 入 首次 缩小 到 低 维度 (两 个 或 三 个 ) 时 ， 它 们 就 可 以 方便 地 可 视 化 ， 或 者 
可 以 将 用 户 或 项 目 彼 此 进行 比较 ORARIA )。 获 得 这 些 能 入 的 一 种 方式 是 对 实际 
目标 (例如 评级 ) 的 矩阵 R 进行 奇异 值 分 解 。 这 对 应 于 将 R= UDV (或 归 一 化 
的 变 体 ) 分 解 为 两 个 因子 的 乘积 ， 低 秩 和 矩阵 A = UD 和 B= 及 。SVD 的 一 个 问题 
是 它 以 任意 方式 处 理 缺 失 条 目 ， 如 同 它们 对 应 于 目标 值 0。 相 反 , 我 们 和 希望 避免 为 缺 
失 条 目 做 出 的 预测 付出 任何 代价 。 幸 运 的 是 ， 观 察 到 的 评级 的 平方 误差 总 和 也 可 以 
使 用 基于 梯度 的 优化 最 小 化 。SVD 和 式 (12.20) 中 的 双 线 性 预测 在 Netflix 奖 竞赛 中 
(目的 是 仅 基于 大 量 匿名 用 户 的 之 前 评级 预测 电影 的 评级 ) 表现 得 非常 好 (Bennett 
and Lanning, 2007)。 许 多 机 需 学 习 专 家 参加 了 2006 年 和 2009 年 之 间 的 这 场 比赛 。 
它 提 高 了 使 用 先进 机 器 学 习 的 推荐 系统 的 研究 水 平 ， 并 改进 了 推荐 系统 。 即 使 简单 
的 双 线 性 预测 或 SVD 本 吴 并 没有 赢得 比赛 , 但 它 是 大 多 数 欧 争 对 手提 出 的 整体 模型 
中 一 个 组 成 部 分 ， 包 括 胜 者 (Tóscher et al., 2009; Koren, 2009). 

除了 这 些 具 有 分 布 式 表 示 的 双 线 性 模型 之 外 , 第 一 次 用 于 协同 过 滤 的 神经 网 络 之 
一 是 基于 RBM 的 无 向 概率 模型 (Salakhutdinov et aL, 2007)。RBM 是 Netflix 比 
赛 获胜 方法 的 一 个 重要 组 成 部 分 (Tascher et al., 2009; Koren, 2009)。 神 经 网 络 社 群 
中 也 已 经 探索 了 对 评级 矩阵 进行 因子 分 解 的 更 高 级 变 体 (Salakhutdinov and Mnih, 
2008)。 


然而 ， 协 同 过 滤 系 统 有 一 个 基本 限制 : 当 引 入 新 项 目 或 新 用 户 时 ， 缺 乏 评 级 历 
意味 着 无 法 评估 其 与 其 他 项 目 或 用 户 的 相似 性 ， 或 者 说 无 法 评估 新 的 用 户 和 现 有 
项 目的 联系 。 这 被 称 为 冷 启动 推荐 问题 。 解 决 冷 启 动 推荐 问题 的 一 般 方式 是 引入 单 
个 用 户 和 项 目的 额外 信息 。 例 如 ， 该 额外 信息 可 以 是 用 户 简 要 信息 或 每 个 项 目的 特 
征 。 使 用 这 种 信息 的 系统 被 称 为 基于 内 容 的 推荐 系统 (content-based recommender 
system)。 从 丰富 的 用 户 特 征 或 项 目 特征 集 到 磐 人 的 映射 可 以 通过 深度 学 习 架 构 学 习 
(Huang et al., 2013; Elkahky et al., 2015). 
专用 的 深度 学 习 架 构 ， 如 卷 积 网 络 已 经 应 用 于 从 丰富 内 容 中 提取 特征 ， 如 提取 
用 于 音乐 推荐 的 音乐 音 轨 (van den Oórd et aL, 2013)。 在 该 工作 中 ， 卷 积 网 络 将 声 
学 特征 作为 输入 并 计算 相关 歌曲 的 能 入 。 该 歌曲 从 入 和 用 户 通 入 之 间 的 点 积 则 可 以 
























































ww ai bbc. com (HL BEBE BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
408 第 十 二 章 ”应 用 


预测 用 户 是 否 将 收听 该 歌曲 。 


12.5.1.1 ”探索 与 开发 


当 向 用 户 推 荐 时 ， 会 产生 超出 普通 监督 学 习 范 围 的 问题 ， 并 进入 强化 学 习 的 领 
域 。 理 论 上 ,许多 推荐 问题 最 准确 的 描述 是 contextual bandit(Langford and Zhang, 
2008; Lu et al., 2010)。 问 题 是 ， 当 我 们 使 用 推荐 系统 收集 数据 时 ， 我 们 得 到 是 一 个 
有 偏 旦 不 完整 的 用 户 偏 好 观 : 我 们 只 能 看 到 用 户 对 推荐 给 他 们 项 目的 反应 ， 而 不 是 
其 他 项 目 。 此 外 ， 在 某 些 情况 下 ， 我 们 可 能 无 法 获得 未 向 其 进行 推荐 的 用 户 的 任何 
言 息 〈 例 如 ， 在 广告 竞价 中 ， 可 能 是 广告 的 建议 价格 低 于 最 低 价 格 阔 值 ， 或 者 没有 
赢得 竞价 ， 因 此 广告 不 会 显示 )。 更 重要 的 是 ， 我 们 不 知道 推荐 任何 其 他 项 目 会 产生 
什么 结果 。 这 就 像 训练 一 个 分 类 器 ， 为 每 个 训练 样本 z 挑选 一 个 类 别 (通常 是 基 
于 模型 最 高 概率 的 类 别 )， 然 后 只 能 获得 该 类 别 正 确 与 否 的 反馈 。 显 然 ， 每 个 样本 传 
达 的 信息 少 于 监督 的 情况 ( 其 中 真实 标签 y 是 可 直接 访问 的 )， 因 此 需要 更 多 的 样 
本 。 更 糟糕 的 是 ， 如 果 我 们 不 够 小 心 ， 即 使 收集 越 来 越 多 的 数据 ， 我 们 得 到 的 系统 
可 能 会 继续 选择 错误 的 决定 ， 因 为 正确 的 决定 最 初 具 有 很 低 的 概率 : 直到 学 习 者 选 
择 正 确 的 决定 之 前 ,该 系统 都 无 法 学 习 正 确 的 决定 。 这 类 似 于 强化 学 习 的 情况 ， 其 
中 仅 观察 到 所 选 动作 的 奖励 。 一 般 来 说 ， 强 化 学 习 会 涉及 许多 动作 和 许多 奖励 的 序 
列 。bandit 情景 是 强化 学 习 的 特殊 情况 ， 其 中 学 习 者 仅 采取 单一 动作 并 接收 单个 奖 
WH. bandit 问题 在 学 习 者 知道 哪个 奖励 与 哪个 动作 相关 联 的 时 更 容易 。 在 一 般 的 强 
化 学 习 场 景 中 ， 高 奖励 或 低 奖励 可 能 是 由 最 近 的 动作 或 很 入 以 前 的 动作 引起 的 。 术 
语 contextual bandit ( contextual bandit ) 指 的 是 在 一 些 输入 变量 可 以 通知 决定 的 
上 下 文中 采取 动作 的 情况 。 例 如 ， 我 们 至 少 知道 用 户 身 份 ， 并 且 我 们 要 选择 一 个 项 
目 。 从 上 下 文 到 动作 的 映射 也 称 为 策略 (policy )。 学 习 者 和 数据 分 布 ( 现在 取决 于 
学 习 者 的 动作 ) 之 间 的 反馈 循环 是 强化 学 习 和 bandit 研 究 的 中 心 问题 。 

强化 学 习 需 要 权衡 探索 (exploration ) 5j F£ (exploitation )。 开 发 指 的 是 从 
目前 学 到 的 最 好 策略 采取 动作 ， 也 就 是 我 们 所 知 的 将 获得 高 奖励 的 动作 。 探 索 
(exploration ) 是 指 采取 行动 以 获得 更 多 的 训练 数据 。 如 果 我 们 知道 给 定 上 下 文 x, 
动作 a 给 予 我 们 1 的 奖励 ， 但 我 们 不 知道 这 是 否 是 最 好 的 奖励 。 我 们 可 能 想 利 用 我 
们 目前 的 策略 ， 并 继续 采取 行动 a 相对 肯定 地 获得 1 的 奖励 。 然 而 ， 我 们 也 可 能 想 
通过 尝试 动作 a! 来 探索 。 我 们 不 知道 尝试 动作 d 会 发 生 什 么 。 我 们 希望 得 到 2 的 
奖励 ， 但 有 获得 0 奖励 的 风险 。 无 论 如 何 ， 我 们 至 少 获得 了 一 些 知识 。 
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探索 (exploration) 可 以 以 许多 方式 实现 ， 从 覆盖 可 能 动作 的 整个 空间 的 随机 
动作 到 基于 模型 的 方法 ( 基于 预期 回报 和 模型 对 该 回报 不 确定 性 的 量 来 计算 动作 的 
选择 )。 

许多 因素 决定 了 我 们 喜欢 探索 或 开发 的 程度 。 最 突出 的 因素 之 一 是 我 们 感 兴 
的 时 间 尺 度 。 如 果 代 理 只 有 短暂 的 时 间 积累 奖励 ， 那 么 我 们 喜欢 更 多 的 开发 。 如 果 
代理 有 很 长 时 间 积 累 奖 励 ， 那 么 我 们 开始 更 多 的 探索 ， 以 便 使 用 更 多 的 知识 更 有 效 
地 规划 未 来 的 动作 。 

监督 学 习 在 探索 或 开发 之 间 没 有 权衡 ， 因 为 监督 信号 总 是 指定 哪个 输出 对 于 每 
个 输入 是 正确 的 。 我 们 总 是 知道 标签 是 最 好 的 输出 ， 没 有 必要 尝试 不 同 的 输出 来 确 
定 是 否 优 于 模型 当前 的 输出 。 

除了 权衡 探索 和 开发 之 外 ， 强 化 学 习 青 景 下 出 现 的 另 一 个 困难 是 难以 评估 和 比 
较 不 同 的 策略 。 强 化 学 习 包 括 学 习 者 和 环境 之 间 的 相互 作用 。 这 个 反馈 回路 意味 着 
使 用 固定 的 测试 集 输入 评估 学 习 者 的 表现 不 是 直接 的 。 策 略 本 身 确定 将 看 到 哪些 输 
Ao Dudik et al. (2011) 提出 了 评估 contextual bandit 的 技术 。 


12.5.2 ”知识 表示 、 推 理 和 回答 


因为 使 用 符号 (Rumelhart et aL, 1986a) Wig Rx A (Deerwester et al., 1990; 
Bengio et aL, 2001b)， 深 度 学 习 方 法 在 语言 模型 、 机 器 翻译 和 自然 语言 处 理 方面 非 
第 成 功 。 这 些 舱 入 表示 关于 单个 词 或 概念 的 语义 知识 。 研 究 前 沿 是 为 短语 或 词 和 事 
实 之 间 的 关系 开发 舰 入。 搜索 引擎 已 经 使 用 机 器 学 习 来 实现 这 一 目的 ,但 是 要 改进 
这 些 更 高 级 的 表示 还 有 许多 工作 要 做 。 


12.5.2.1 ” 知识、 联系 和 回答 


一 个 有 趣 的 研究 方向 是 确定 如 何 训 练 分 布 式 表 示 才 能 捕获 两 个 实体 之 间 的 关系 
(relation )。 

数学 中 ， 二 元 关系 是 一 组 有 序 的 对 象 对 。 集 合 中 的 对 具有 这 种 关系 ， 而 那些 不 
在 集合 中 的 对 则 没有 。 例 如 , 我们 可 以 在 实体 集 {1,2, 3} 上 定义 关系 “小 于 ”来 定义 
有 序 对 的 集合 S = {(1,2),(1,3),(2,3)}。 一 旦 这 个 关系 被 定义 ， 我 们 可 以 像 动词 一 样 
EHE. AX (1,2) ES， 我 们 说 1 小 于 2。 因 为 (2,1) &S， 我 们 不 能 说 2 小 于 1。 
当然 ， 彼 此 相关 的 实体 不 必 是 数字 。 我 们 可 以 定义 关系 is a type of 包含 如 CR, 
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哺乳 动物 ) 的 元 组 。 

在 AI 的 背景 下 , 我们 将 关系 看 作 句 法 上 简单 旦 高 度 结构 化 的 语言 。 关 系 起 到 动 
词 的 作用 ， 而 关系 的 两 个 参数 发 挥 着 主体 和 客体 的 作用 。 这 些 句 子 是 一 个 三 元 组 标 
记 的 形式 : 


(subject, verb, object) (12.21) 





(entity;, relation;, entity, ). (12.22) 


我 们 还 可 以 定义 属性 (attribute )， 类 似 于 关系 的 概念 ， 但 只 需要 一 个 参数 : 


(entity;, attribute;). (12.23) 





例如 ， 我 们 可 以 定义 has, fur 属性 ， 并 将 其 应 用 于 像 狗 这 样 的 实体 。 

许多 应 用 中 需要 表示 关系 和 推理 。 我 们 如 何在 神经 网 络 中 做 到 这 一 点 ? 

机 器 学 习 模 型 当然 需要 训练 数据 。 我 们 可 以 推断 非 结 构 化 自然 语言 组 成 的 训练 
数据 集中 实体 之 间 的 关系 ， 也 可 以 使 用 明确 定义 关系 的 结构 化 数据 库 。 这 些 数据 库 
的 共同 结构 是 关系 型 数据 库 ， 它 存储 这 种 相同 类 型 的 信息 ， 虽 然 没 有 格式 化 为 三 
元 标记 的 句子 。 当 数据 库 则 在 将 日 常生 活 中 常识 或 关于 应 用 领域 的 专业 知识 传达 
给 人 工 智 能 系统 时 , 我 们 将 这 种 数据 库 称 为 知识 库 。 知识 库 包 括 一 般 的 像 Freebase, 
OpenCyc, WordNet, Wikibase? 等 等 ， 和 专业 的 知识 库 ， 如 GeneOntology?。 实 体 
和 关系 的 表示 可 以 将 知识 库 中 的 每 个 三 元 组 作为 训练 样本 来 学 习 ， 并 且 以 最 大 化 捕 
获 它们 的 联合 分 布 为 训练 目标 (Bordes et al., 2013a). 

除了 训练 数据 ， 我 们 还 需 定义 训练 的 模型 族 。 一 种 常见 的 方法 是 将 神经 语言 模 
型 扩展 到 模型 实体 和 关系 。 神经 语言 模型 学 习 提 供 每 个 词 分 布 式 表 示 的 向 量 。 他们 还 
通过 学 习 这 些 向 量 的 函数 来 学 习 词 之 间 的 相互 作用 ， 例 如 哪些 词 可 能 出 现在 词 序列 
之 后 。 我 们 可 以 学 习 每 个 关系 的 般 和 人 向 量 将 这 种 方法 扩展 到 实体 和 关系 。 EXE, E 
模 语 言 和 通过 关系 编码 建 模 知识 的 联系 非常 接近 ， 研 究 人 员 可 以 同时 使 用 知识 库 和 
自然 语言 句子 训练 这 样 的 实体 表示 (Bordes et al., 2011, 2012; Wang et al., 2014a), 
或 组 合 来 自 多 个 关系 型 数据 库 的 数据 (Bordes et aL, 2013b)。 可 能 与 这 种 模型 相关 
联 的 特定 参数 化 有 许多 种 。 早 期 关于 学 习 实 体 间 关系 的 工作 (Paccanaro and Hinton, 


2 分别 可 以 在 如 下 网 址 获取 : freebase.com, cyc.com/opencyc, wordnet.princeton.edu, wikiba.se 
3geneontology.org 
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2000) 假定 高 度 受 限 的 参数 形式 (“线性 关系 髋 人”)， 通常 对 关系 使 用 与 实体 形式 不 
同 的 表示 。 例 如 ，Paccanaro and Hinton (2000) 和 Bordes et al. (2011) 用 向 量 表示 
实体 而 和 矩阵 表示 关系 ， 甚 思想 是 关系 在 实体 上 相当 于 运算 符 。 或 者 ， 关 系 可 以 被 认 
为 是 任何 其 他 实体 (Bordes et al., 2012) ， 人 允许 我 们 关于 关系 作 声明 ， 但 是 更 灵活 的 
是 将 它们 结合 在 一 起 并 建 模 联合 分 布 的 机 人 

这 种 模型 的 实际 短期 应 用 是 链接 预测 (link prediction ): 预测 知识 图 谱 中 缺失 
的 弧 。 这 是 基于 旧事 实 推广 新 事实 的 一 种 形式 。 目 前 存在 的 大 多 数 知识 库 都 是 通过 
人 力 劳 动 构建 的 ， 这 往往 使 知识 库 缺 失 许多 并 且 可 能 是 大 多 数 真 正 的 关系 。 请 查 
看 Wang et al. (2014b), Lin et al. (2015) 和 Garcia-Duran et al. (2015) 中 这 样 应 用 
的 例子 。 

我 们 很 难 评估 链接 预测 任务 上 模型 的 性 能 ， 因 为 我 们 的 数据 集 只 有 正 样本 (已 
知 是 真实 的 事实 )。 如 果 模 型 提出 了 不 在 数据 集中 的 事实 ， 我 们 不 确定 模型 是 犯 了 错 
误 还 是 发 现 了 一 个 新 的 以 前 未 知 的 事实 。 度 量 基 于 测试 模型 如 何 将 已 知 真实 事实 的 
留存 集合 与 不 太 可 能 为 真 的 其 他 事实 相 比较 ， 因 此 有 些 不 精确 。 构 造 感 兴趣 的 负 样 
本 (可 能 为 假 的 事实 ) 的 常见 方式 是 从 真实 事实 开始 ,并 创建 该 事实 的 损坏 版 本 , 例 
如 用 随机 选择 的 不 同 实 体 替 换 关系 中 的 一 个 实体 。 通 用 的 测试 精度 (1096 度量 ) 计 
算 模型 在 该 事实 的 所 有 损坏 版 本 的 前 10% 中 选择 “正确 ”事实 的 次 数 。 

知识 库 和 分 布 式 表示 的 男 一 个 应 用 是 词义 消 歧 (word-sense disambiguation ) 
(Navigli and Velardi, 2005; Bordes et al., 2012)， 这 个 任务 决定 在 某 些 语 境 中 哪个 词 
的 意义 是 恰当 。 

最 后 知识 的 关系 结合 一 个 推理 过 程 和 对 自然 语言 的 理解 可 以 让 我 们 建立 一 个 
一 般 的 问答 系统 。 一 般 的 问答 系统 必须 能 处 理 输入 信息 并 记 住 重要 的 事实 ， 并 以 之 
后 能 检索 和 推理 的 方式 组 织 。 这 仍然 是 一 个 困难 的 开放 性 问题 ， 只 能 在 受 限 的 “ 玩 
有 具 ”环境 下 解决 。 目 前 ， 记 住 和 检索 特定 声明 性 事实 的 最 佳 方 法 是 使 用 显 式 记 忆 机 
制 ， 如 第 10.12 节 所 述 。 记 忆 网 络 最 开始 是 被 用 来 解决 一 个 玩具 问答 任务 (Weston 
et al., 2014)。Kumar et al. (2015b) 提出 了 一 种 扩展 , 使 用 GRU 循环 网 络 将 输入 读 
入 存储 器 并 且 在 给 定 存 储 器 的 内 容 后 产生 回答 。 

深度 学 习 已 经 应 用 于 其 他 许多 应 用 ( 除了 这 里 描述 的 应 用 以 外 )， 并 且 肯 定 会 在 
此 之 后 应 用 于 更 多 的 场景 。 我 们 不 可 能 全 面 描 述 与 此 主题 相关 的 所 有 应 用 。 本 项 调 
查 尽 可 能 地 提供 了 在 本 文 写 作 之 时 的 代表 性 样本 

第 二 部 分 介绍 了 涉及 深度 学 习 的 现代 实践 ， 包 括 了 所 有 非常 成 功 的 方法 。 一 般 
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而 言 ， 这 些 方 法 使 用 代价 函数 的 梯度 寻找 模型 ( 近似 于 菏 些 所 期 望 的 函数 ) 的 参数 。 
当 具 有 足够 的 训练 数据 时 ， 这 种 方法 是 非常 强大 的 。 我 们 现在 转 到 第 三 部 分 ， 开 始 
进入 研究 领域 ， 旨 在 使 用 较 少 的 训练 数据 或 执行 更 多 样 的 任务 。 而 且 相 比 目 前 为 止 
所 描述 的 情况 ， 其 中 的 挑战 更 困难 并 且 远 远 没 有 解决 。 
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本 书 这 一 部 分 描述 目前 研究 社 群 所 追求 的 、 更 有 远见 和 更 先进 的 深度 学 习 方 法 。 

在 本 书 的 前 两 部 分 ,我们 已 经 展示 了 如 何 解决 监督 学 习 问题 ， 即 在 给 定 足够 的 
映射 样本 的 情况 下 ， 学 习 将 一 个 向 量 映射 到 另 一 个 。 

我 们 想 要 解决 的 问题 并 不 全 都 属于 这 个 类 别 。 我 们 可 能 希望 生成 新 的 样本 、 或 
确定 一 个 点 的 似 然 性 、 或 处 理 缺失 值 以 及 利用 一 组 大 量 的 未 标记 样本 或 相关 任务 的 
样本 。 当 前 应 用 于 工业 的 最 先进 技术 的 缺点 是 我 们 的 学 习 算法 需要 大 量 的 监督 数据 
才能 实现 良好 的 精度 。 在 本 书 这 一 部 分 ， 我 们 讨论 一 些 推测 性 的 方法 ， 来 减少 现 有 
模型 工作 所 需 的 标注 数据 量 ， 并 适用 于 更 广泛 的 任务 。 实 现 这 些 目标 通常 需要 某 种 
形式 的 无 监督 或 半 监 督学 习 。 

许多 深度 学 习 算法 被 设计 为 处 理 无 监督 学 习 问 题 ， 但 不 像 深度 学 习 已 经 在 很 大 
程度 上 解决 了 各 种 任务 的 监督 学 习 问题 ， 没 有 一 个 算法 能 以 同样 的 方式 真正 解决 无 
监督 学 习 问题 。 在 本 书 这 一 部 分 ， 我 们 描述 无 监督 学 习 的 现 有 方法 和 一 些 如 何在 这 
一 领域 取得 进展 的 流行 思想 。 

无 监督 学 习 困 难 的 核心 原因 是 被 建 模 的 随机 变量 的 高 维度 。 这 带 来 了 两 个 不 同 
的 挑战 : 统计 挑战 和 计算 挑战 。 统 计 挑战 与 泛 化 相关 : 我 们 可 能 想 要 区 分 的 配置 数 
会 随 着 感 兴趣 的 维度 数 指数 增长 ， 并 且 这 快速 变 得 比 可 能 具有 的 (或 者 在 有 限 计算 
资源 下 使 用 的 ) 样本 数 大 得 多 。 与 高 维 分 布 相 关联 的 计算 挑战 之 所 以 会 出 现 ， 是 因 
为 用 于 学 习 或 使 用 训练 模型 的 许多 算法 ( 特别 是 基于 估计 显 式 概率 函数 的 算法 ) 涉 
及 难处 理 的 计算 量 ， 并 且 随 维 数 呈 指数 增长 。 

使 用 概率 模型 ， 这 种 计算 挑战 来 自 执行 难 解 的 推断 或 归 一 化 分 布 。 











。 难 解 的 推断 : 推断 主要 在 第 十 九 章 讨论 。 推断 关于 捕获 a, b 和 c 上 联合 分 布 的 
模型 ,给 定 其 他 变量 5 的 情况 下 ， 猜 测 一 些 变 量 a 的 可 能 值 。 为 了 计算 这 样 的 
条 件 概 率 ， 我们 需要 对 变量 c 的 值 求 和 ， 以 及 计算 对 a 和 c 的 值 求 和 的 归 一 化 
常数 。 





难 解 的 归 一 化 常数 【 配 分 函数 ) : 配 分 函数 主要 在 第 十 八 章 讨论 。 归 一 化 概 
率 函 数 的 常数 在 推断 EX) 以 及 学 习 中 出 现 。 许 多 概率 模型 涉及 这 样 的 归 
一 化 常数 。 不 境 的 是 ， 学 习 这 样 的 模型 通常 需要 相对 于 模型 参数 计算 配 分 耳 
数 对 数 的 梯度 。 该 计算 通常 与 计算 配 分 函数 本 里 一 样 难 解 。 马 尔 可 夫 链 蒙特 
卡 罗 (MCMC) (ETER) 通常 用 于 处 理 配 分 函数 。 不 雯 的 是 ， 当 模型 分 
布 的 模式 众多 且 分 离 良 好 时 ，MCMC 方 法 会 出 现 问 题 ， 特 别 是 在 高 维 空间 中 
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(第 17.5 节 )。 


面 对 这 些 难以 处 理 的 计算 的 一 种 方法 是 近似 它们 ， 如 在 本 书 的 第 三 部 分 中 讨论 
的 ,研究 者 已 经 提出 了 许多 方法 。 这 里 还 讨论 另 一 种 有 趣 的 方式 是 通过 设计 模型 ， 完 
全 避免 这 些 难以 处 理 的 计算 ， 因 此 不 需要 这 些 计算 的 方法 是 非常 有 吸引 力 的 。 近 年 
来 ， 人 研究 者 已 经 提出 了 数 种 具有 该 动机 的 生成 模型 。 其 中 第 二 十 章 讨论 了 各 种 各 样 
的 现代 生成 式 建 模 方法 。 

第 三 部 分 对 于 研究 者 来 说 是 最 重要 的 ， 人 研究 者 想 要 了 解 深度 学 习 领 域 的 广度 ， 
并 将 领域 推 向 真正 的 人 工 智 能 。 
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第 十 三 章 ”线性 因子 模型 


许多 深度 学 习 的 研究 前 沿 均 涉 及 构建 输入 的 概率 模型 pmoael(z)。 原 则 上 说 ， 给 
定 任 何其 他 变量 的 情况 下 ， 这 样 的 模型 可 以 使 用 概率 推断 来 预测 其 环境 中 的 任何 变 
量 。 许多 这 样 的 模型 还 具有 潜 变 量 h, 其 中 Pmodal (£) = En Pmodel(T | h). 这 些 潜 变 
量 提供 了 表示 数据 的 男 一 种 方式 。 我 们 在 深度 前 馈 网 络 和 循环 网 络 中 已 经 发 现 ， 基 
于 潜 变 量 的 分 布 式 表 示 继 承 了 表示 学 习 的 所 有 优点 。 

在 本 章 中 ， 我 们 描述 了 一 些 基于 潜 变 量 的 最 简单 的 概率 模型 .线性 因子 模型 
(linear factor model )。 这 些 模型 有 时 被 用 来 作为 混合 模型 的 组 成 模块 (Hinton et al., 
1995a; Ghahramani and Hinton, 1996; Roweis et al., 2002) 或 者 更 大 的 深度 概率 模 
WY (Tang et al., 2012). 同时 ， 也 介绍 了 构建 生成 模型 所 需 的 许多 基本 方法 ， 在 此 基 
础 上 更 先进 的 深度 模型 也 将 得 到 进一步 扩展 。 

线性 因子 模型 通过 随机 线性 解码 器 函数 来 定义 ， 该 函数 通过 对 h 的 线性 变换 以 
及 添加 噪声 来 生成 z。 

有 趣 的 是 ， 通 过 这 些 模型 我 们 能 够 发 现 一 些 符 合 简单 联合 分 布 的 解释 性 因子 。 
线性 解码 器 的 简单 性 使 得 它们 成 为 了 最 早 被 广泛 研究 的 潜 变 量 模型 。 

线性 因子 模型 描述 如 下 的 数据 生成 过 程 。 首 先 ， 我 们 从 一 个 分 布 中 抽取 解释 性 
因子 h 





























h ~ p(h), (13.1) 


其 中 p(h) 是 一 个 因子 分 布 ， 满 足 ph) = Tip(hi)， 所 以 易于 从 中 采样 。 接 下 来 ， 在 
给 定 因子 的 情况 下 ， 我 们 对 实 值 的 可 观察 变量 进行 采样 





x= Wh + b + noise, (13.2) 
其 中 噪声 通常 是 对 角 化 的 〈 在 维度 上 是 独立 的 ) 且 服 从 高 斯 分 布 。 这 在 图 13.1 有 具 


416 
ww ai bt. com DILE BO D DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
13.1 概率 PCA 和 因子 分 析 417 


体 说 明 。 





x = Wh +b + noise 











图 13.1: 描述 线性 因子 模型 族 的 有 向 图 模型 ， 其 中 我 们 假设 观察 到 的 数据 向 量 z eni Er BT 
在 因子 的 线性 组 合 再 加 上 一 定 噪 声 获得 的 。 不 同 的 模型 ， 比 如 概率 PCA, 因子 分 析 或 者 是 ICA, 
都 是 选择 了 不 同形 式 的 噪声 以 及 先 验 p(h). 






































13.1 概率 PCA 和 因子 分 析 


概率 PCA (probabilistic PCA ) 、 因 子 分 析 和 其 他 线性 因子 模型 是 上 述 等 式 
( 式 (13.1) 和 式 (13.2) ) 的 特殊 情况 ， 并 且 仅 在 对 观测 到 ae 之 前 的 噪声 分 布 和 淤 变量 
h 先 验 的 选择 上 有 所 不 同 。 

在 因子 分 析 (factor analysis) (Bartholomew, 1987; Basilevsky, 1994) 中 ， 洪 
变量 的 先 验 是 一 个 方差 为 单位 矩阵 的 高 斯 分 布 





h ~ A (h; 0, I), (13.3) 


同时 ,假定 在 给 定 h 的 条 件 下 观察 值 x; 是 条 件 独 立 ( conditionally independent ) 
的 。 有 具体 来 说 ， 我 们 可 以 假设 噪声 是 从 对 角 协 方差 矩阵 的 高 斯 分 布 中 抽出 的 ， 协 方 
HEREN s» = diag(o?), K'P o? = [cz, co2,...,a2] 7 表示 一 个 向 量 ， 每 个 元 素 表示 
一 个 变量 的 方差 。 

因此 ， 洪 变量 的 作用 是 捕获 不 同 观测 变量 x; 之 间 的 依赖 关系 。 实 际 上 ， 可 以 容 
易 地 看 出 x 服从 多 维 正 态 分 布 ， 并 满足 











x~ AN (a; b, WW! +4). (13.4) 


为 了 将 PCA 引入 到 概率 框架 中 ,我 们 可 以 对 因子 分 析 模 型 作 轻微 修改 ,使 条 件 
方差 o2 等 于 同一 个 值 。 在 这 种 情况 下 ，z 的 协 方差 简化 为 WW' +I, 这 里 的 o? 
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是 一 个 标量 。 由 此 可 以 得 到 条 件 分 布 ， 如 下 : 
x~N(z;b, WW! - c? I), (13.5) 
或 者 等 价 地 


x= Wh-4b-4oz, (13.6) 





其 中 z ~N(z;0, 了 是 高 斯 噪声 。 之 后 Tipping and Bishop (1999) 提出 了 一 种 迭代 
的 EM 算法 来 估计 参数 W fll o?。 

这 个 概率 PCA (probabilistic PCA ) 模型 利用 了 这 样 一 种 观察 现象 : 除了 一 
些微 小 残余 的 重 构 误 差 (reconstruction error) (至 多 为 o? )， 数 据 中 的 大 多 数 变 
化 可 以 由 潜 变量 h 描述 。 通 过 Tipping and Bishop (1999) 的 研究 我 们 可 以 发 现 ， 当 
0 一 0 时 ,概率 PCA 退化 为 PCA。 在 这 种 情况 下 ， 给 定 x 情况 下 h 的 条 件 期 望 等 
于 将 z 一 投影 到 W 的 d 列 所 生成 的 空间 上 , 5 PCA 一 样 。 

"jo 0Hf, 概率 PCA 所 定义 的 密度 函数 在 d 维 的 W 的 列 生成 空间 周围 非 
党 尖锐。 这 导致 模型 会 为 没有 在 一 个 超 平 面 附 近 聚 集 的 数据 分 配 非 常 低 的 概率 。 


13.2 ”独立 成 分 分 析 


独立 成 分 分 析 (independent component analysis, ICA ) 是 最 古老 的 表示 学 习 算 
法 之 一 (Herault and Ans, 1984; Jutten and Herault, 1991; Comon, 1994; Hyvärinen, 
1999; Hyvärinen et al., 2001; Hinton et al., 2001; Teh et al., 2003)。 它 是 一 种 建 模 线 
性 因子 的 方法 ， 旨 在 将 观察 到 的 信号 分 离 成 许多 洪 在 信号 ， 这 些 洪 在 信和 号 通过 缩放 
和 县 加 可 以 恢复 成 观察 数据 。 这 些 信号 是 完全 独立 的 ， 而 不 是 仅仅 彼此 不 相关 1。 

许多 不 同 的 具体 方法 被 称 为 ICA。 与 我 们 本 书 中 描述 的 其 他 生成 模型 最 相似 
的 ICA 变种 (Pham et al., 1992) 训练 了 完全 参数 化 的 生成 模型 。 洪 在 因子 h 的 先 验 
p(h)， 必 须 由 用 户 提 前 给 出 并 固定 。 接 着 模型 确定 性 地 生成 z= Wh. 我 们 可 以 通过 
非 线 性 变化 (使 用 式 (3.47) ) 来 确定 p(x)。 然 后 通过 一 般 的 方法 比如 最 大 化 似 然 进 
WH. 

这 种 方法 的 动机 是 ， 通 过 选择 一 个 独立 的 p(h)， 我 们 可 以 尽 可 能 恢复 接近 独立 
的 潜在 因子 。 这 是 一 种 常用 的 方法 , 它 并 不 是 用 来 捕捉 高 级 别 的 抽象 因果 因子 ,而 是 


“第 3.8 节 讨论 了 不 相关 变量 和 独立 变量 之 间 的 差异 。 
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恢复 已 经 混合 在 一 起 的 低级 别 信号 。 在 该 设置 中 ， 每 个 训练 样本 对 应 一 个 时 刻 ， 每 
个 zi 是 一 个 传 感 咒 对 混合 信和 号 的 观察 值 ， 并 且 每 个 h 是 单个 原始 信号 的 一 个 估计 。 
例如 ， 我 们 可 能 有 n 个 人 同时 说 话 。 如 果 我 们 在 不 同位 置 放置 n 个 不 同 的 麦克 风 ， 
WW ICA 可 以 检测 每 个 麦克 风 的 音量 变化 ， 并 且 分 离 信号 ， 使 得 每 个 hi 仅 包 含 一 个 
人 清楚 地 说 话 。 这 通常 用 于 脑 电 图 的 神经 科学 ， 这 种 技术 可 用 于 记录 源 自 大 脑 的 电 
信和 叶 。 放 置 在 受 试 者 头 部 上 的 许多 电极 传 感 需 用 于 测量 来 自身 体 的 多 种 电信 号 。 实 
验 者 通常 仅 对 来 自 大 脑 的 信号 感 兴趣 ， 但 是 来 自 受 试 者 心脏 和 眼睛 的 信号 强 到 足以 
混淆 在 受 试 者 头皮 处 的 测量 结果 。 信 号 到 达 电 极 ， 并 且 混 合 在 一 起 ， 因 此 为 了 分 离 
源 于 心脏 与 源 于 大 脑 的 信号 ， 并 量 将 不 同 脑 区 域 中 的 信号 彼此 分 离 ，ICA 是 必要 的 。 

如 前 所 述 ，ICA 存在 许多 变种 。 一 些 版 本 在 z 的 生成 中 添加 一 些 噪声 ， 而 不 是 
使 用 确定 性 的 解码 器 。 大 多 数 方法 不 使 用 最 大 似 然 准 则 ， 而 是 由 在 使 h = W z 的 
元 素 彼 此 独立 。 许 多 准则 能 够 达成 这 个 目标 。 式 (3.47) 需要 用 到 W 的 行列 式 ， 这 可 
能 是 代价 很 高 且 数 值 不 稳定 的 操作 。ICA 的 一 些 变种 通过 将 W 约束 为 正 交 来 避免 
这 个 有 问题 的 操作 。 

ICA 的 所 有 变种 均 要 求 p(h) 是 非 高 斯 的 。 这 是 因为 如 果 ph) 是 具有 高 斯 分 量 
的 独立 先 验 ， 则 W 是 不 可 识别 的 。 对 于 许多 Ww fü. 我 们 可 以 在 p(x) 上 获得 相同 
的 分 布 。 这 与 其 他 线性 因子 模型 有 很 大 的 区 别 , 例如 概率 PCA 和 因子 分 析 通 常 要 求 
p(h) 是 高 斯 的 ， 以 便 使 模型 上 的 许多 操作 具有 闭 式 解 。 在 用 户 明 确 指定 分 布 的 最 大 
似 然 方法 中 ， 一 个 典型 的 选择 是 使 用 p(h;) = 盐 (2)。 这 些 非 高 斯 分 布 的 典型 选择 
在 0 附近 具有 比 高 斯 分 布 更 高 的 峰值 ， 因 此 我 们 也 可 以 看 到 独立 成 分 分 析 经 常用 于 
学 习 稀 玲 特 征 。 

按照 我 们 对 生成 模型 这 个 术语 的 定义 ，ICA 的 许多 变种 不 是 生成 模型 。 在 本 书 
中 ， 生 成 模型 可 以 直接 表示 p(x)， 也 可 以 认为 是 从 p(x) 中 抽取 样本 。ICA 的 许多 
变种 仅 知 道 如 何在 z 和 h 之 间 变 换 ， 而 没有 任何 表示 p(h) 的 方式 ， 因 此 也 无 法 在 
ple) 上 施加 分 布 。 例 如 ， 许 多 ICA REREH h= We 的 样本 峰 度 ， 因 为 高 
峰 度 说 明了 p(h) 是 非 高 斯 的 ， 但 这 是 在 没有 显 式 表示 p(h) 的 情况 下 完成 的 。 这 就 
是 为 什么 ICA 多 被 用 作 分 离 信 号 的 分 析 工 具 ， 而 不 是 用 于 生成 数据 或 估计 其 密度 。 

正如 PCA 可 以 推广 到 第 十 四 章 中 描述 的 非 线性 自 编 码 器 ，ICA 也 可 以 推广 到 
非 线性 生成 模型 ， 其 中 我 们 使 用 非 线 性 函数 f 来 生成 观测 数据 。 关 于 非 线 性 ICA 最 
初 的 工作 可 以 参考 Hyvärinen and Pajunen (1999), 它 和 集成 学 习 的 成 功 结合 可 以 参 
见 Roberts and Everson (2001); Lappalainen et al. (2000)。ICA 的 男 一 个 非 线 性 扩 
展 是 非 线性 独立 成 分 估计 (nonlinear independent components estimation, NICE ) 
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方法 (Dinh et al.,，2014) ， 这 个 方法 堆 码 了 一 系列 可 逆 变 换 (在 编码 器 阶段 )， 其 特 
性 是 能 高 效 地 计算 每 个 变换 的 Jacobian 行列 式 。 这 使 得 我 们 能 够 精确 地 计算 似 然 ， 
并 且 像 ICA 一 样 ，NICE 尝试 将 数据 变换 到 具有 因子 的 边缘 分 布 的 空间 。 由 于 非 线 
性 编码 器 的 使 用 ， 这 种 方法 更 可 能 成 功 。 因 为 编码 器 和 一 个 能 进行 完美 逆 变 换 的 解 
码 器 相关 联 ， 所 以 可 以 直接 从 模型 生成 样本 〈 首先 从 p(h) 采样 ， 然 后 使 用 解码 器 )。 

ICA 的 另 一 个 推广 是 通过 鼓励 组 内 统计 依赖 关系 、 抑 制 组 间 依 赖 关 系 来 学 习 特 
征 组 。 当 相关 单元 的 组 被 选 为 不 重症 时 ， 这 被 称 为 独立 子 空间 分 析 (independent 
subspace analysis )。 我 们 还 可 以 向 每 个 隐藏 单元 分 配 空间 坐标 ， 并 且 空 间 上 相 邻 的 
单元 组 形成 一 定 程度 的 重合 。 这 能 够 敦 励 相 邻 的 单元 学 习 类 似 的 特征 。 当 应 用 于 自 
然 图 像 时 ， 这 种 地 质 ICA (topographic ICA ) 方法 可 以 学 习 Gabor 滤波 器 ， 从 而 
使 得 相 邻 特征 具有 相似 的 方向 、 位 置 或 频率 。 在 每 个 区 域内 出 现 类 似 Gabor 函数 的 
许多 不 同 相 位 存在 抵消 作用 ， 使 得 在 小 区 域 上 的 池 化 产生 了 平移 不 变性 。 








13.3 [BRED 


慢 特 征 分 析 ( slow feature analysis, SFA ) 是 使 用 来 自 时 间 信 号 的 信息 学 习 不 变 
特征 的 线性 因子 模型 (Wiskott and Sejnowski, 2002)。 

慢 特 征 分 析 的 想法 源 于 所 谓 的 慢性 原则 (slowness principle )。 其 基本 思想 是 ， 
与 场景 中 起 描述 作用 的 单个 量度 相 比 ， 场 景 的 重要 特性 通常 变化 得 非常 缓慢 。 例 如 ， 
在 计算 机 视觉 中 ， 单 个 像素 值 可 以 非常 快速 地 改变 。 如 果 斑 马 从 左 到 右 移 动 穿 过 图 
像 并 且 它 的 条 纹 穿 过 对 应 的 像素 时 ， 该 像素 将 迅速 从 黑色 变 为 白色 ， 并 再 次 恢复 成 
黑色 。 通 过 比较 ， 指 示 斑 马 是 否 在 图 像 中 的 特征 将 不 发 生 改 变 ， 并 且 描 述 斑马 位 置 
的 特征 将 缓慢 地 改变 。 因 此 ,我 们 可 能 希望 将 模型 正则 化 ， 从 而 能 够 学 习 到 那些 随 
时 间 变 化 较为 缓慢 的 特征 。 

慢性 原则 早 于 慢 特征 分 析 , 并 已 被 应 用 于 各 种 模型 (Hinton, 1989; Földiák, 1989; 
Mobahi et al., 2009; Bergstra and Bengio, 2009)。 一 般 来 说 , 我 们 可 以 将 慢性 原则 应 
用 于 可 以 使 用 梯度 下 降 训练 的 任何 可 微分 模型 。 为 了 引入 慢性 原则 ， 我 们 可 以 向 代 
价 函数 添加 以 下 项 














AM LEa), (13.7) 


其 中 A 是 确定 慢 度 正 则 化 强度 的 超 参 数 项 , 上 是 样本 时 间 序 列 的 索引 ，j 是 需要 正则 
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化 的 特征 提取 器 , L 是 测量 f(a) 和 f (wD) 之 间 的 距离 的 损失 函数 。 工 的 一 个 
常见 选择 是 均 方 误差 。 

慢 特 征 分 析 是 慢性 原则 中 一 个 特别 高 效 的 应 用 。 由 于 它 被 应 用 于 线性 特征 提取 
器 ， 并 且 可 以 通过 闭 式 解 训练 ， 所 以 它 是 高 效 的 。 像 ICA. 的 一 些 变 种 一 样 ，SFA 本 
身 并 不 是 生成 模型 ， 只 是 在 输入 空间 和 特征 空间 之 间 定 义 了 一 个 线性 映射 ， 但 是 没 
有 定义 特征 空间 的 先 验 ， 因 此 没有 在 输入 空间 上 施加 分 布 p(z)。 

SFA 算法 (Wiskott and Sejnowski, 2002) 先 将 f(2;0) 定义 为 线性 变换 ， 然后 求 


























解 如 下 优化 问题 
min E, (f (a/^*?); — f(@).)? (13.8) 
并 且 满 足下 面 的 约束 : 
E f (a/2), — 0 (13.9) 
以 及 
[f (a/2)2] — 1. (13.10) 

















学 习 特 征 具 有 有 零 均值 的 约束 对 于 使 问题 具有 唯一 解 是 必要 的 ; 否则 我 们 可 以 向 所 有 特 
征 值 添加 一 个 常数 ， 并 获得 具有 相等 慢 度 目标 值 的 不 同 解 。 特 征 具 有 单位 方差 的 约 
束 对 于 防止 所 有 特征 趋 近 于 -0 的 病态 解 是 必要 的 。 与 PCA 类 似 ，SFA 特征 是 有 序 
的 ， 其 中 学 习 第 一 特征 是 最 慢 的 。 要 学 习 多 个 特征 ， 我 们 还 必须 添加 约束 

















Vi <j, E;[f (a'?),f (a/?);] = 0. (13.11) 


这 要 求学 习 的 特征 必须 彼此 线性 去 相关 。 没 有 这 个 约束 ， 所 有 学 习 到 的 特征 将 简单 
地 捕获 一 个 最 慢 的 信号 。 可 以 想象 使 用 其 他 机 制 ， 如 最 小 化 重 构 误 差 ， 也 可 以 迫使 
特征 多 样 化 。 但 是 由 于 SEA 特征 的 线性 ， 这 种 去 相关 机 制 只 能 得 到 一 种 简单 的 解 。 
SFA 问题 可 以 通过 线性 代数 软件 获得 闭 式 解 。 

在 运行 SFA Zi, SFA 通常 通过 对 z 使 用 非 线性 的 基 扩 充 来 学 习 非 线性 特征 。 
PON, HATA z 的 二 次 基 扩 充 来 代替 原来 的 z， 得 到 一 个 包含 所 有 vic; 的 向 量 。 由 
此 ， 我 们 可 以 通过 反复 地 学 习 一 个 线性 SFA 特征 提取 器 ， 对 其 输出 应 用 非 线 性 基 扩 
展 ， 然 后 在 该 扩展 之 上 学 习 另 一 个 线性 SFA 特征 提取 器 的 方式 来 组 合 线性 SFA 模 
块 从 而 学 习 深度 非 线性 慢 特征 提取 器 。 
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当 在 自然 场景 视频 的 小 块 空间 部 分 上 训练 时 ， 使 用 二 次 基 扩 展 的 SEA 所 学 习 
到 的 特征 与 V1 皮层 中 那些 复杂 细胞 的 特征 有 许多 共同 特性 (Berkes and Wiskott, 
2005)。 当 在 计算 机 泻 染 的 3D 环境 内 随机 运动 的 视频 上 训练 时 ， 深 度 SEA 模型 能 
够 学 习 的 特征 与 大 鼠 脑 中 用 于 导航 的 神经 元 学 到 的 特征 有 许多 共同 特性 (Franzius 
et al., 2007)。 因 此 从 生物 学 角度 上 来 说 SFA 是 一 个 合理 的 有 依据 的 模型 。 

SFA 的 一 个 主要 优点 是 ， 即 使 在 深度 非 线 性 条 件 下 ， 它 依然 能 够 在 理论 上 预 
il SFA 能 够 学 习 哪 些 特征 。 为 了 做 出 这 样 的 理论 预测 ， 必 须知 道 关 于 配置 空间 的 环 
境 动力 (例如 , 在 3D 演 染 环境 中 随机 运动 的 例子 中 ,理论 分 析 是 从 相机 位 置 、 速 度 
的 概率 分 布 中 入 手 的 )。 已 知 潜 在 因子 如 何 改 变 的 情况 下 ， 我 们 能 够 通过 理论 分 析 解 
出 表达 这 些 因子 的 最 佳 函 数 。 在 实践 中 ， 基 于 模拟 数据 的 实验 上 ， 使 用 深度 SPA W 
平 能 够 恢复 理论 预测 的 函数 。 相 比 之 下 ， 在 其 他 学 习 算 法 中 ， 代 价 函 数 高 度 依赖 于 
特定 像素 值 ， 使 得 难以 确定 模型 将 学 习 到 什么 特征 。 

深度 SFA 也 已 经 被 用 于 学 习 用 在 对 象 识别 和 姿态 估计 的 特征 (Franzius et al., 
2008)。 到 目前 为 止 ， 慢 性 原则 尚未 成 为 任何 最 先进 应 用 的 基础 。 究 竟 是 什么 因素 限 
制 了 其 性 能 仍 有 竺 研究 。 我 们 推测 ， 或 许 慢 度 先 验 太 过 强势 ， 并 且 ， 最 好 添加 这 样 
一 个 先 验 使 得 当前 时 间 步 到 下 一 个 时 间 步 的 预测 更 加 容易 ， 而 不 是 加 一 个 先 验 使 得 
特征 近似 为 一 个 常数 。 对 象 的 位 置 是 一 个 有 用 的 特征 ， 无 论 对 象 的 速度 是 高 还 是 低 。 
但 慢性 原则 鼓励 模型 忽略 具有 高 速度 的 对 象 的 位 置 。 











13.4 HA 


Tii (sparse coding) (Olshausen and Field, 1996) 是 一 个 线性 因子 模型 ， 
已 作为 一 种 无 监督 特征 学 习 和 特征 提取 机 制 得 到 了 广泛 研究 。 严 格 来 说 ， 术 话 “ 稀 踊 
编码 ”是 指 在 该 模型 中 推断 疡 值 的 过 程 ， 而 “ 稀 玻 建 模 ” 是 指 设计 和 学 习 模 型 的 过 
程 ， 但 是 通常 这 两 个 概念 都 可 以 用 术语 “ 稀 蚊 编码 ”描述 。 

像 大 多 数 其 他 线性 因子 模型 一 样 ， 它 使 用 了 线性 的 解码 器 加 上 噪声 的 方式 获得 
一 个 z 的 重 构 ， 就 像 式 (13.2) 描述 的 一 样 。 更 具体 地 说 ， 稀 玻 编码 模型 通常 假设 线 
性 因子 有 一 个 各 向 同性 精度 为 8 的 高 斯 噪声 : 








ps | h) = A (a; Wh + b, 51) (13.12) 


分 布 p(h) 通常 选取 为 一 个 峰值 很 尖锐 且 接 近 0 的 分 布 (Olshausen and Field, 
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1996). UL AN HEE FRAT PAY Laplace, Cauchy 或 者 可 分 解 的 Student-t 分 布 。 
fA, LULA D] SAC 入 为 参数 的 Laplace 先 验 可 以 表示 为 


p(hi) = Laplace(^;; 0, i) = fe PM, (13.13) 
相应 的 ，Student-t 先 验 分 布 可 以 表示 为 
p(hi) x (13.14) 


使 用 最 大 似 然 的 方法 来 训练 稀 玻 编码 模型 是 不 可 行 的 。 相反， 为 了 在 给 定编 码 
的 情况 下 更 好 地 重 构 数 据 ， 训 练 过 程 在 编码 数据 和 训练 解码 器 之 间 交 蔡 进 行 。 稍 后 
在 第 19.3 节 中 ， 这 种 方法 将 被 进一步 证 明 为 是 解决 最 大 似 然 问题 的 一 种 通用 的 近似 
方法 。 

对 于 诸如 PCA 的 模型 ,我们 已 经 看 到 使 用 了 预测 h 的 参数 化 的 编码 融 函 数 ， 
并 且 该 函数 仅 包 括 乘 以 权重 和 矩 阵 。 稀 玻 编 码 中 的 编码 铝 不 是 参数 化 的 编码 器 。 相 反 ， 
编码 需 是 一 个 优化 算法 ， 在 这 个 优化 问题 中 ， 我 们 寻找 单个 最 可 能 的 编码 值 : 

h* = f(x) = argmax p(h | x). (13.15) 
h 











结合 式 (13.13) 和 式 (13.12) ， 我 们 得 到 如 下 的 优化 问题 : 


arg max p(h | x) (13.16) 
h 

= argmax logp(h | æ) (13.17) 
h 

= argmin A||A|, + 8||z — Whll3, (13.18) 
h 





其 中 ,我们 扔 掉 了 与 h 无 关 的 项 ， 并 除 以 一 个 正 的 缩放 因子 来 简化 表达 。 

由 于 在 天 上 施加 Li 范 数 ， 这 个 过 程 将 产生 稀 玖 的 h* CYÉULSS 7.1.2 5 )。 

为 了 训练 模型 而 不 仅仅 是 进行 推 凯 ， 我 们 交替 迭代 关于 h 和 W 的 最 小 化 过 程 。 
在 本 文中 ,我 们 将 S 视 为 超 参数 。 我 们 通常 将 其 设置 为 1， 因 为 它 在 此 优化 问题 的 
作用 与 和 类似， 没有 必要 使 用 两 个 超 参数 。 原 则 上 ， 我 们 还 可 以 将 8 作为 模型 的 参 
数 ， 并 学 习 它 。 我 们 在 这 里 已 经 放弃 了 一 些 不 依赖 于 h 但 依赖 于 8 的 项 。 要 学 习 B, 
必须 包含 这 些 项 ， 否 则 6 将 退化 为 0。 

不 是 所 有 的 稀 玻 编码 方法 都 显 式 地 构建 了 一 个 p(h) 和 一 个 p(z | h). WERN 
只 是 对 学 习 一 个 带 有 激活 值 的 特征 的 字典 感 兴趣 ， 当 特征 是 由 这 个 推断 过 程 提 取 时 ， 
这 个 激活 值 通常 为 0。 
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如 果 我 们 从 Laplace 先 验 中 采样 h, h 的 元 素 实际 上 为 0 是 一 个 零 概率 事件 。 生 
成 模型 本 身 并 不 稀 政 ， 只 有 特征 提取 融 是 稀 玖 的 。Goodfellow et al. (2013f) 描述 了 
不 同 模型 族 中 的 近似 推断 ， 如 尖峰 和 平板 稀 玻 编码 模型 ， 其 中 先 验 的 样本 通常 包含 
许多 真正 的 0。 

与 非 参数 编码 器 结合 的 稀 玻 编码 方法 原则 上 可 以 比 任何 特定 的 参数 化 编码 需 更 
好 地 最 小 化 重 构 误 差 和 对 数 先 验 的 组 合 。 男 一 个 优点 是 编码 器 没有 泛 化 误差 。 参数 
化 的 编码 器 必须 泛 化 地 学 习 如 何 将 z 映射 到 h。 对 于 与 训练 数据 差异 很 大 的 异常 
Z， 所 学 习 的 参数 化 编码 器 可 能 无 法 找到 对 应 精确 重 构 或 稀 臣 的 编码 has MT dd 
码 模型 的 绝 大 多 数 形式 ， 推 断 问 题 是 是 的 ， 优 化 过 程 总 能 找到 最 优 编码 ( 除非 出 现 
退化 的 情况 ， 例 如 重复 的 权重 向 量 )。 显 然 ， 稀 芍 和 重 构成 本 仍然 可 以 在 不 熟悉 的 点 
上 升 ， 但 这 归 因 于 解码 器 权重 中 的 泛 化 误差 ， 而 不 是 编码 器 中 的 泛 化 误差 。 当 稀 玻 
编码 用 作 分 类 器 的 特征 提取 器 ， 而 不 是 使 用 参数 化 的 函数 来 预测 编码 值 时 ， 基 于 优 
化 的 稀 蚊 编码 模型 的 编码 过 程 中 较 小 的 泛 化 误差 可 以 得 到 更 好 的 泛 化 能 力 。Coates 
and Ng (2011) 证 明了 在 对 象 识别 任务 中 稀 玻 编码 特征 比 基 于 参数 化 的 编码 器 (R 
性 -sigmoid 自 编码 器 ) 的 特征 拥有 更 好 的 泛 化 能 力 。 受 他 们 的 工作 启发 ，Goodfellow 
et al. (2013f) 表明 一 种 稀 玻 编码 的 变 体 在 标签 极 少 (每 类 20 个 或 更 少 标签 ) 的 情况 
中 比 相同 情况 下 的 其 他 特征 提取 器 拥有 更 好 的 谤 化 能 力 。 

非 参 数 编码 需 的 主要 缺点 是 在 给 定 z 的 情况 下 需要 大 量 的 时 间 来 计算 h， 因 为 
非 参 数 方法 需要 运行 迭代 算法 。 在 第 十 四 章 中 讲 到 的 参数 化 自 编码 器 方法 仅 使 用 固 
定数 量 的 层 ， 通 党 只 有 一 层 。 另 一 个 缺点 是 它 不 直接 通过 非 参 数 编码 器 进行 反 向 传 
播 ， 这 使 得 我 们 很 难 采 用 先 使 用 无 监督 方式 预 训练 稀 玲 编码 模型 然后 使 用 监督 方式 
对 其 进行 精 调 的 方法 。 人 允许 近似 导数 的 稀 蚊 编码 模型 的 修改 版 本 确实 存在 但 未 被 广 
泛 使 用 (Bagnell and Bradley, 2009). 

像 其 他 线性 因子 模型 一 样 ， 稀 玲 编 码 经 党 产生 糟糕 的 样本 ， 如 图 13.2 所 示 。 即 
使 当 模型 能 够 很 好 地 重 构 数 据 并 为 分 类 器 提供 有 用 的 特征 时 ， 也 会 发 生 这 种 情况 。 
这 种 现象 发 生 的 原因 是 每 个 单独 的 特征 可 以 很 好 地 被 学 习 到 ， 但 是 隐藏 编码 值 的 
子 先 验 会 导致 模型 包括 每 个 生成 样本 中 所 有 特征 的 随机 子 集 。 这 促使 人 们 开发 更 深 
的 模型 ， 可 以 在 其 中 最 深 的 编码 层 施加 一 个 非 因 子 分 布 ， 与 此 同时 也 在 开发 一 些 复 
林 的 浅 度 模型 。 
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图 13.2: 尖峰 和 平板 稀疏 编码 模型 上 在 MNIST 数据 集训 练 的 样 例 和 权重 。( 左 ) 这 个 模型 中 的 样 
本 和 训练 样本 相差 很 大 。 第 一 眼看 来 ,我们 可 能 认为 模型 拟 合 得 很 差 。( 右 ) 这 个 模型 的 权重 向 量 
已 经 学 习 到 了 如 何 表示 笔迹 ,有 时 候 还 能 写 完 整 的 数字 。 因 此 这 个 模型 也 学 习 到 了 有 用 的 特征 。 问 
题 在 于 特征 的 因子 先 验 会 导致 特征 子 集合 随机 的 组 合 。 一 些 这 样 的 子 集 能 够 合成 可 识别 的 MNIST 
集 上 的 数字 。 这 也 促进 了 拥有 更 强大 潜在 编码 分 布 的 生成 模型 的 发 展 。 此 图 经 Goodfellow et al. 
(2013f) 允许 转载 。 

















13.5 “PCA 的 流 形 解释 


线性 因子 模型 , 包括 PCA 和 因子 分 析 , 可 以 理解 为 学 习 一 个 流 形 (Hinton et al., 
1997)。 我 们 可 以 将 概率 PCA 定义 为 高 概率 的 薄饼 状 区 域 ， 即 一 个 高 斯 分 布 ， 沿 着 
某 些 轴 非 常 罕 ， 就 像 薄饼 沿 着 其 垂直 轴 非 常平 坦 ， 但 治 着 其 他 轴 是 细 长 的 ， 正 如 薄 
饼 在 其 水 平 轴 方 向 是 很 宽 的 一 样 。 图 13.3 解释 了 这 种 现象 。PCA 可 以 理解 为 将 该 薄 
饼 与 更 高 维 空间 中 的 线性 流 形 对 准 。 这 种 解释 不 仅 适用 于 传统 PCA， 而 且 适 用 于 学 
JEE W fü 和 的 任何 线性 自 编码 器 ,其 目的 是 使 重 构 的 a 尽 可 能 接近 于 原始 的 as 





编码 器 表示 为 
h= f(x) = W'(z— p). (13.19) 
编码 器 计算 h 的 低 维 表示 。 从 自 编码 器 的 角度 来 看 ， 解 码 器 负责 计算 重 构 : 
& = g(h) = b+ Vh. (13.20) 
能 够 最 小 化 重 构 误差 
[lz — 2\|7] (13.21) 
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图 13.3: 平坦 的 高 斯 能 够 描述 一 个 低 维 流 形 附近 的 概率 密度 。 此 图 表示 了 “ 流 形 平面 ”上 “ 饮 饼 ” 
的 上 半 部 分 ,并 且 这 个 平面 穿 过 了 馅 饼 的 中 心 。 正 交 于 流 形 方向 aa A 的 方差 
非常 小 ， 可 以 被 视 作 是 “噪声 ”"， 其 他 方向 (平面 内 的 箭头 ) 的 方差 则 很 大 ， 对 应 了 “信和 号 ”以 及 
降 维 数据 的 坐标 系统 。 
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的 线性 编码 器 和 解码 器 的 选择 对 应 着 V.— W, u= b= Ela], W 的 列 形成 一 组 标准 
正 交 基 ， 这 组 基 生 成 的 子 空间 与 协 方差 矩阵 C 























C=E@—p)(e- 1)] (13.22) 


的 主 特征 向 量 所 生成 的 子 空间 相同 。 在 PCA HR, W 的 列 是 按照 对 应 特征 值 (其 全 
部 是 实数 和 非 负 数 ) 幅度 大 小 排序 所 对 应 的 特征 向 量 。 

我 们 还 可 以 发 现 C 的 特征 值 A, 对 应 了 a 在 特征 向 量 vO 方向 上 的 方差 。 如 果 
ZzER?, he Rs 并 日 满足 d<D, m "n WRAY u, b, V, W 的 情况 下 ) 最 佳 的 重 
构 误 差 是 























min El[||z — &|?] SA Ai (13.23) 


i=d+1 
因此 ， 如 果 协 方差 矩阵 的 秩 为 4， 则 特征 值 Ai 到 Ap 都 为 0， 并 且 重 构 误差 为 0。 
此 外 ， 我 们 还 可 以 证 明 上 述 解 可 以 通过 在 给 定 正 交 和 矩阵 W 的 情况 下 最 大 化 h 
元 素 的 方差 而 不 是 最 小 化 重 构 误 差 来 获得 。 


ww ai bt. com DODDDDDOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
13.5 PC4 的 流 形 解释 427 


某 种 程度 上 说 ， 线 性 因子 模型 是 最 简单 的 生成 模型 和 学 习 数 据 表 示 的 最 简单 模 
型 。 许 多 模型 如 线性 分 类 融和 线性 回归 模型 可 以 扩展 到 深度 前 馈 网 络 ， 而 这 些 线性 
因子 模型 可 以 扩展 到 自 编码 器 网 络 和 深度 概率 模型 ， 它们 可 以 执行 相同 任务 但 具有 
更 强大 和 更 灵活 的 模型 族 。 
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自 编 码 器 (autoencoder ) 是 神经 网 络 的 一 种 ， 经 过 训练 后 能 尝试 将 输入 复制 到 
输出 。 自 编码 器 (autoencoder ) 内 部 有 一 个 隐藏 层 h， 可 以 产生 编码 (code ) 表示 
输入 。 该 网 络 可 以 看 作 由 两 部 分 组 成 : 一 个 由 函数 h = f(z) 表示 的 编码 器 和 一 个 生 
成 重 构 的 解码 器 r= g(h). Éd 14.1 展示 了 这 种 架构 。 如 果 一 个 自 编码 器 只 是 简单 地 
学 会 将 处 处 设置 为 g(f(z)) = z， 那 么 这 个 自 编 码 需 就 没什么 特别 的 用 处 。 相 反 ， 我 
们 不 应 该 将 自 编码 絮 设 计 成 输入 到 输出 完全 相等 。 这 通常 需要 问 自 编码 器 强加 一 些 
约束 ， 使 它 只 能 近似 地 复制 ， 并 只 能 复制 与 训练 数据 相似 的 输入 。 这 些 约束 强制 模 
型 考虑 输入 数据 的 哪些 部 分 需要 被 优先 复制 ， 因 此 它 往 往 能 学 习 到 数据 的 有 用 特性 。 

现代 自 编 码 器 将 编码 器 和 解码 器 的 概念 推 而 广 之 ， 将 其 中 的 确定 函数 推广 为 随 
机 映射 Pencoder(h | £) 和 paecoder(Z | h)o 

数 十 年 间 ， 自 编码 器 的 想法 一 直 是 神经 网 络 历史 景象 的 一 部 分 (LeCun, 1987; 
Bourlard and Kamp, 1988; Hinton and Zemel, 1994)。 传 统 自 编码 器 被 用 于 降 维 或 
特征 学 习 。 近 年 来 ， 自 编码 器 与 潜 变 量 模型 理论 的 联系 将 自 编 码 器 带 到 了 生成 式 建 
模 的 前 沿 ， 我 们 将 在 第 二 十 章 揭示 更 多 细节 。 自 编码 器 可 以 被 看 作 是 前 馈 网 络 的 一 
个 特例 ， 并 且 可 以 使 用 完全 相同 的 技术 进行 训练 ， 通 常 使 用 小 批量 梯度 下 降 法 (其 
中 梯度 基于 反 向 传播 计算 )。 不 同 于 一 般 的 前 馈 网 络 ， 自 编码 器 也 可 以 使 用 再 循环 
(recirculation ) 训练 (Hinton and McClelland, 1988)， 这 种 学 习 算法 基于 比较 原始 
输入 的 激活 和 重 构 输入 的 激活 。 相 比 反 向 传播 算法 ， 青 循环 算法 更 具 生 物 学 意义 , 但 
很 少 用 于 机 器 学 习 应 用 。 
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图 14.1: 自 编码 器 的 一 般 结 构 ， 通 过 内 部 表示 或 编码 h 将 输入 z 映射 到 输出 ( 称 为 重 构 ) r。 自 编 
码 器 具有 两 个 组 件 : 编码 器 f ORF z 映射 到 hh) 和 解码 器 g (将 h ROSSI m). 








14.1 欠 完 备 自 编码 器 


将 输入 复制 到 输出 听 起 来 没什么 用 , 但 我 们 通常 不 关心 解码 器 的 输出 。 相 反 , 我 
们 希望 通过 训练 自 编 码 屁 对 输入 进行 复制 而 使 h 获得 有 用 的 特性 。 

从 自 编 码 器 获得 有 用 特征 的 一 种 方法 是 限制 h 的 维度 比 z 小， 这 种 编码 维度 
小 于 输入 维度 的 自 编码 器 称 为 欠 完 备 ( undercomplete ) 自 编 码 器 。 学 习 欠 完备 的 表 
示 将 强制 自 编码 器 捕 提 训练 数据 中 最 显著 的 特征 。 

学 习 过 程 可 以 简单 地 描述 为 最 小 化 一 个 损失 函数 














L(x, 9(f(#))), (14.1) 





其 中 L 是 一 个 损失 函数 ,惩罚 g( f(a) 与 a 的 差异 ， 如 均 方 误差。 

当 解 码 器 是 线性 的 且 L 是 均 方 误差 ， 欠 完备 的 自 编码 器 会 学 习 出 与 PCA 相同 
的 生成 子 空间 。 这 种 情况 下 ， 自 编码 器 在 训练 来 执行 复制 任务 的 同时 学 到 了 训练 数 
据 的 主 元 子 空间 。 

因此 ， 拥 有 非 线性 编码 器 函数 f 和 非 线性 解码 器 函数 g 的 自 编码 器 能 够 学 习 出 
更 强大 的 PCA 非 线性 推广 。 不 幸 的 是 ， 如 果 编 码 器 和 解码 器 被 赋予 过 大 的 容量 ， 
编码 器 会 执行 复制 任务 而 捕捉 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 从 理论 上 说 , RN 
可 以 设想 这 样 一 个 自 编码 器 ， 它 只 有 一 维 编码 ， 但 它 具有 一 个 非常 强大 的 非 线性 编 
码 器 ， 能 够 将 每 个 训练 数据 zt 表示 为 编码 i。 而 解码 器 可 以 学 习 将 这 些 整数 索引 
映射 回 特定 训练 样本 的 值 。 这 种 特定 情形 不 会 在 实际 情况 中 发 生 ， 但 它 清楚 地 说 明 ， 
如 果 自 编码 器 的 容量 太 大 ， 那 训练 来 执行 复制 任务 的 自 编码 器 可 能 无 法 学 习 到 数据 
集 的 任何 有 用 信息 。 
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14.2 ”正则 自 编码 器 


编码 维 数 小 于 输入 维 数 的 欠 完 备 自 编码 器 可 以 学 习 数据 分 布 最 显著 的 特征 。 我 
们 已 经 知道 ， 如 果 赋 予 这 类 自 编码 器 过 大 的 容量 ， 它 就 不 能 学 到 任何 有 用 的 信息 。 

如 果 隐 藏 编码 的 维 数 允 许 与 输入 相等 ， 或 隐藏 编码 维 数 大 于 输入 的 过 完备 
(overcomplete ) 情况 下 ,会 发 生 类 似 的 问题 。 在 这 些 情况 下 ， 即 使 是 线性 编码 器 和 
线性 解码 器 也 可 以 学 会 将 输入 复制 到 输出 ， 而 学 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 

理想 情况 下 ， 根 据 要 建 模 的 数据 分 布 的 复杂 性 ， 选 择 合适 的 编码 维 数 和 编码 器 、 
解码 器 容量 ， 就 可 以 成 功 训 练 任意 架构 的 自 编码 器 。 正 则 自 编 码 器 提供 这 样 的 能 力 。 
正则 自 编 码 器 使 用 的 损失 函数 可 以 鼓励 模型 学 习 其 他 特性 (除了 将 输入 复制 到 输 
出 )， 而 不 必 限 制 使 用 浅 层 的 编码 器 和 解码 器 以 及 小 的 编码 维 数 来 限制 模型 的 容量 。 
这 些 特 性 包括 稀疏 表示 、 表 示 的 小 导数 、 以 及 对 噪声 或 输入 缺失 的 鲁 棒 性 。 即 使 模 
型 容量 大 到 足以 学 习 一 个 无 意义 的 恒 等 函 数 ， 非 线性 且 过 完备 的 正则 自 编 码 右 仍然 
能 够 从 数据 中 学 到 一 些 关 于 数据 分 布 的 有 用 信息 。 

除了 这 里 所 描述 的 方法 〈 正 则 化 自 编码 器 最 自然 的 解释 )， 几 乎 任何 带 有 洪 变 
量 并 配 有 一 个 推断 过 程 (计算 给 定 输入 的 潜在 表示 ) 的 生成 模型 ， 都 可 以 看 作 是 自 
编码 器 的 一 种 特殊 形式 。 强 调 与 自 编码 器 联系 的 两 个 生成 式 建 模 方法 是 Helmholtz 
机 (Hinton et al., 1995b) 的 衍生 模型 ， 如 变 分 自 编码 器 〈 第 20.10.3 节 ) 和 生成 随机 
网 络 〈 第 20.12 节 ), 这 些 变种 〈 或 衍生 ) 自 编码 需 能 够 学 习 出 高 容量 且 过 完备 的 模 
型 ， 进 而 发 现 输入 数据 中 有 用 的 结构 信息 ， 并 且 也 无 需 对 模型 进行 正则 化 。 这 些 编 
码 显然 是 有 用 的 ， 因 为 这 些 模型 被 训练 为 近似 训练 数据 的 概率 分 布 而 不 是 将 输入 复 
制 到 输出 。 























14.2.1 稀疏 自 编码 器 





稀 琉 自 编 码 需 简单 地 在 训练 时 结合 编码 层 的 稀 玻 惩罚 Q(h) 和 重 构 误差 : 
D(a, gf (2))) + QCA), (14.2) 
其 中 g(h) 是 解码 器 的 输出 ， 通 常 h 是 编码 器 的 输出 ， 即 h = f(a). 
inibi FI di di — RR Sd FERE, 以便 用 于 像 分 类 这 样 的 任务 。 稀 琉 正 则 化 的 自 


编码 器 必须 反映 训练 数据 集 的 独特 统计 特征 ， 而 不 是 简单 地 充当 恒 等 函 数 。 以 这 种 
方式 训练 ， 执 行 附 带 稀 玻 惩 罚 的 复制 任务 可 以 得 到 能 学 习 有 用 特征 的 模型 。 
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我 们 可 以 简单 地 将 惩罚 项 Q(h) 视 为 加 到 前 馈 网 络 的 正则 项 ， 这 个 前 馈 网 络 的 
主要 任务 是 将 输入 复制 到 输出 〈 无 监督 学 习 的 目标 )， 并 尽 可 能 地 根据 这 些 稀 琉 特征 
执行 一 些 监 督学 习 任务 ( 根据 监督 学 习 的 目标 )。 不 像 其 它 正则 项 如 权重 衰减 没 
有 直观 的 贝 叶 斯 解释 。 如 第 5.6.1 节 描述 ， 权 重 衰减 和 其 他 正则 惩罚 可 以 被 解释 为 一 
个 MAP 近似 贝 叶 斯 推断 , 正则 化 的 惩罚 对 应 于 模型 参数 的 先 验 概率 分 布 。 这 种 观点 
认为 ， 正 则 化 的 最 大 似 然 对 应 最 大 化 pO | gj， 相当 于 最 大 化 log p(x | 0) +logp(6)。 
log p(a| 0) 即 通常 的 数据 似 然 项 ， 参 数 的 对 数 先 验 项 log p(6) 则 包含 了 对 9 特定 值 
的 偏好 。 这 种 观点 在 第 5.6 节 有 所 描述 。 正 则 自 编码 器 不 适用 这 样 的 解释 是 因为 正则 
项 取决 于 数据 ， 因 此 根据 定义 上 从 文字 的 正式 意义 ) 来 说 ， 它 不 是 一 个 先 验 。 虽 
然 如 此 ， 我 们 仍 可 以 认为 这 些 正则 项 隐 式 地 表达 了 对 函数 的 偏好 。 

我 们 可 以 认为 整个 稀 玖 自 编码 器 框架 是 对 带 有 潜 变 量 的 生成 模型 的 近似 最 大 似 
然 训练 ， 而 不 将 稀 艳 惩罚 视 为 复制 任务 的 正则 化 。 假 如 我 们 有 一 个 带 有 可 见 变量 z 
和 潜 变 量 h 的 模型 , 日 具有 明确 的 联合 分 布 pasoga (zx, h) = Puoaa(P)Pmoaa(x | h)o 我 
们 将 Dmoae(h) 视 为 模型 关于 潜 变 量 的 先 验 分 布 , 表示 模型 看 到 z 的 信念 先 验 。 这 与 
我 们 之 前 使 用 “ 先 验 ”的 方式 不 同 ， 之 前 指 分 布 p(0) 在 我 们 看 到 数据 前 就 对 模型 参 
数 的 先 验 进行 编码 。 对 数 似 然 函数 可 分 解 为 















































log Pmodel (æ) = log ` Pmodei (P^, z). (14. 3) 
h 


我 们 可 以 认为 自 编码 器 使 用 一 个 高 似 然 值 h AIAS A RES 
编码 生成 模型 《第 13.4 节 ) 但 疡 是 参数 编码 器 的 输出 ， 而 不 是 从 优化 结果 推断 出 的 
最 可 能 的 hs 从 这 个 角度 看 ， 我 们 根据 这 个 选择 的 h， 最 大 化 如 下 


log Damnoadel( 用， a) = log Pmoaei(h) F log Pmodei(& | h). (14.4) 
log Pmodai (h) HE RMS. WMLaplacejt H, 


入 , 
Pmoael (Ri) = om , (14.5) 








对 应 于 绝对 值 稀疏 惩罚 。 将 对 数 先 验 表示 为 绝对 值 惩罚 ， 我 们 得 到 
Q(h) = A 2hil, (14.6) 


— log Pmoaa( A) = SCA — log 2) = Q(h) + const, (14.7) 


2 
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这 里 的 常数 项 只 跟 入 有关。 通常 我 们 将 和 视 为 超 参 数 ， 因 此 可 以 丢弃 不 影响 参数 学 
习 的 常数 项 。 其 他 如 Student-t 先 验 也 能 诱导 稀 跑 性 。 从 稀 政 性 导致 pwoaa(h) 学 习 
成 近似 最 大 似 然 的 结果 看 ， 稀 玻 惩罚 完全 不 是 一 个 正则 项 。 这 仅仅 影响 模型 关于 淤 
变量 的 分 布 。 这 个 观点 提供 了 训练 自 编码 器 的 另 一 个 动机 : 这 是 近似 训练 生成 模型 的 
一 种 途径 。 这 也 给 出 了 为 什么 自 编 码 器 学 到 的 特征 是 有 用 的 另 一 个 解释 : 它们 描述 
的 潜 变 量 可 以 解释 输入 。 

稀 玖 自 编 码 器 的 早期 工作 (Ranzato et al., 2007a, 2008) 探讨 了 各 种 形式 的 稀 
Wil, 并 提出 了 稀 玲 惩罚 和 log Z 项 (将 最 大 似 然 应 用 到 无 向 概率 模型 p(x) = SP (a) 
时 产生 ) 之 间 的 联系 。 这 个 想法 是 最 小 化 log 2 防止 概率 模型 处 处 具有 高 概率 ， 同 理 
强制 稀 玖 可 以 防止 自 编 码 器 处 处 具有 低 的 重 构 误 差 。 这 种 情况 下 ， 这 种 联系 是 对 通 
用 机 制 的 直观 理解 而 不 是 数学 上 的 对 应 。 在 数学 上 更 容易 解释 稀 玻 惩罚 对 应 于 有 向 
模型 paoaa(P)Pmoaa(z | h) 中 的 log pode (A) c 

Glorot et al. (2011b) 提出 了 一 种 在 稀疏 (和 去 噪 ) 自 编码 器 的 h 中 实现 真正 为 
零 的 方式 。 该 想法 是 使 用 整流 线性 单元 产生 编码 层 。 基 于 将 表示 真正 推 向 零 ( 如 绝 
对 值 惩罚 ) 的 先 验 ， 可 以 间接 控制 表示 中 零 的 平均 数量 。 




















14.2.2 ”去 噪 自 编码 器 
除了 回 代 价 函 数 增 加 一 个 惩罚 项 ， 我 们 也 可 以 通过 改变 重 构 误 差 项 来 获得 一 个 
能 学 到 有 用 信息 的 自 编码 器 。 
传统 的 自 编码 需 最 小 化 以 下 目标 
L(x, g(f (2))). (14.8) 
其 中 工 是 一 个 损失 函数 ,惩罚 g(f(z)) 与 z 的 差异 ,如 它们 彼此 差异 的 L 范 数 。 如 
果 模 型 被 赋予 过 大 的 容量 , L 仅仅 使 得 go f 学 成 一 个 恒 等 函 数 。 
相反 ， 去 噪 自 编码 器 ( denoising autoencoder, DAE) 最 小 化 
L(x, g(f (2))). (14.9) 
其 中 z 是 被 某 种 噪声 损坏 的 z 的 副本 。 因 此 去 噪 自 编码 器 必须 撤消 这 些 损 坏 ， 而 不 
是 简单 地 复制 输入 。 


Alain and Bengio (2013) 和 Bengio et al. (2013d) 指出 去 噪 训练 过 程 强制 f 和 
g 隐 式 地 学 习 paata(z) 的 结构 。 因 此 去 噪 自 编码 器 也 是 一 个 通过 最 小 化 重 构 误 差 获 
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取 有 用 特性 的 例子 。 这 也 是 将 过 完备 、 高 容量 的 模型 用 作 自 编码 器 的 一 个 例子 一 一 
只 要 小 心 防 止 这 些 模型 仅仅 学 习 一 个 恒 等 困 数 。 去 品 自 编码 需 将 在 第 14.5 节 给 出 更 
ZH. 





14.2.3 ”惩罚 导数 作为 正则 





另 一 正则 化 自 编 码 咒 的 策略 是 使 用 一 个 类 似 稀 朴 自 编码 器 中 的 惩罚 项 9， 
L(x, g(f (2))) + Q(h, æ), (14.10) 
但 9 的 形式 不 同 : 


O(h, æ) = AM |V shil. (14.11) 


这 迫使 模型 学 习 一 个 在 z 变化 小 时 目标 也 没有 太 大 变化 的 函数 。 因 为 这 个 惩罚 
只 对 训练 数据 适用 ， 它 迫使 自 编码 器 学 习 可 以 反映 训练 数据 分 布 信息 的 特征 。 

这 样 正则 化 的 自 编 码 右 被 称 为 收缩 自 编码 器 ( contractive autoencoder, CAE )。 
这 种 方法 与 去 噪 自 编码 器 、 流 形 学 习 和 概率 模型 存在 一 定理 论 联 系 。 收缩 自 编码 器 将 
在 第 14.7 节 更 详细 地 描述 。 


14.3 ”表示 能 力 、 层 的 大 小 和 深度 


自 编 码 带 通常 只 有 单 层 的 编码 器 和 解码 顺 ， 但 这 不 是 必然 的 。 实 际 上 深度 编码 
顺和 解码 需 能 提供 更 多 优势 。 

回忆 第 6.4.1 节 ， 其 中 提 到 加 深 前 馈 网 络 有 很 多 优势 。 这 些 优 势 也 同样 适用 于 自 
编码 融 ， 因 为 它 也 属于 前 馈 网 络 。 此 外 ,编码 涡 和 解码 右 各 自 都 是 一 个 前 僻 网 络 ， 因 
此 这 两 个 部 分 也 能 各 自从 深度 结构 中 获得 好 处 。 

万 能 近似 定理 保证 至 少 有 一 层 隐 藏 层 且 隐藏 单元 足够 多 的 前 馈 神 经 网 络 能 以 任 
意 精 度 近似 任意 函数 〈 在 很 大 范围 里 )， 这 是 非 平凡 深度 ( 至少 有 一 层 隐藏 层 ) 的 一 
个 主要 优点 。 这 意味 着 具有 单 隐藏 层 的 自 编码 右 在 数据 域内 能 表示 任意 近似 数据 的 
恒 等 函 数 。 但 是 ， 从 输入 到 编码 的 映射 是 浅 层 的 。 这 意味 这 我 们 不 能 任意 添加 约束 ， 
比如 约束 编码 稀 玖 。 深 度 自 编码 带 ( 编码 器 至 少 包含 一 层 额 外 隐藏 层 ) 在 给 定 足 够 
多 的 隐藏 单元 的 情况 下 ， 能 以 任意 精度 近似 任何 从 输入 到 编码 的 映射 。 
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深度 可 以 指数 地 降低 表示 某 些 函数 的 计算 成 本 。 深 度 也 能 指数 地 减少 学 习 一 些 
函数 所 需 的 训练 数据 量 。 读 者 可 以 参考 第 6.4.1 节 巩 固 深度 在 前 僻 网 络 中 的 优势 。 

实验 中 ， 深 度 自 编码 器 能 比 相应 的 浅 层 或 线性 自 编码 器 产生 更 好 的 压缩 效率 
(Hinton and Salakhutdinov, 2006). 

UU ATARI FI Ss E ii P T aed R Je I| I — ME TJ BH] FI i o oe A HELL Bp 
HIIRET. OTA BIE H px EVI RTE A Ania, RAK DEDIRE Fl Zhi 
[m 








14.4 ”随机 编码 器 和 解码 器 


自 编 码 器 本 质 上 是 一 个 前 馈 网 络 ， 可 以 使 用 与 传统 前 馈 网 络 相 同 的 损失 函数 和 
输出 单元 。 

如 第 6.2.2.4 节 中 描述 ， 设 计 前 馈 网 络 的 输出 单元 和 损失 函数 普遍 策略 是 定义 一 
个 输出 分 布 p(y | 四 并 最 小 化 负 对 数 似 然 一 log p(y| z)。 在 这 种 情况 下 ，y 是 关于 目 
标的 向 量 ( 如 类 标 )。 

在 自 编码 器 中 ，z 既是 输入 也 是 目标 。 然 而 ,我 们 仍然 可 以 使 用 与 之 前 相同 的 架 
构 。 给 定 一 个 隐藏 编码 h， 我 们 可 以 认为 解码 带 提 供 了 一 个 条 件 分 布 paoaa(z | h)- 
接着 我 们 根据 最 小 化 一 log paecoae (x | h) 来 训练 自 编码 器 。 损 失 函 数 的 具体 形式 视 
Paecoder 的 形式 而 定 。 就 传统 的 前 馈 网 络 来 说 ， 如 果 x 是 实 值 的 ， 那 么 我 们 通常 使 用 
线性 输出 单元 参数 化 高 斯 分 布 的 均值 。 在 这 种 情况 下 ， 负 对 数 似 然 对 应 均 方 误差 准 
则 。 类似 地 ， 二 值 x 对 应 于 一 个 Bernoulli 分 布 ， 其 参数 由 sigmoid 输出 单元 确定 
的 。 而 离散 的 x 对 应 softmax 分 布 ， 以 此 类 推 。 在 给 定 h 的 情况 下 ， 为 了 便于 计算 
概率 分 布 ， 输 出 变量 通常 被 视 为 是 条 件 独 立 的 ， 但 一 些 技术 〈 如 混合 密度 输出 ) 可 
以 解决 输出 相关 的 建 模 。 

为 了 更 彻底 地 与 我 们 之 前 了 解 到 的 前 馈 网 络 相 区 别 ， 我 们 也 可 以 将 编码 函数 
(encoding function) f(a) 的 概念 推广 为 编码 分 布 (encoding distribution) Pencoder(h | 
Zz)， 如 图 14.2 中 所 示 。 


任何 潜 变 量 异型 pmodal(h, z) 定义 一 个 随机 编码 器 








Dencoder ft | 1T) = pmodael(h | a) (14.12) 
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Pencoder(h | x) Ddecoder (€ | h) 


QO 


图 14.2: 随机 自 编码 需 的 结构 ， 其 中 编码 器 和 解码 器 包括 一 些 噪声 注入 ， 而 不 是 简单 的 函数 。 这 
意味 着 可 以 将 它们 的 输出 视 为 来 A 分 布 的 采样 (对 于 编码 器 是 Pencoder(h | D) 对 于 解码 器 是 
Daecoder(Z | h) Jo 











以 及 一 个 随机 解码 需 
Pdecoder (£ | h) = Pmode& | h). (14.13) 


通常 情况 下 ， 编 码 器 和 解码 器 的 分 布 没有 必要 是 与 唯一 一 个 联合 分 布 poa (ae, h) 相 
容 的 条 件 分 布 。Alain et al. (2015) 指出 ， 在 保证 足够 的 容量 和 样本 的 情况 下 ， 将 编 
码 器 和 解码 器 作为 去 噪 自 编码 器 训练 ， 能 使 它们 渐 近 地 相 容 。 
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去 噪 自 编码 器 (denoising autoencoder, DAE ) 是 一 类 接受 损坏 数据 作为 输入 ， 
并 训练 来 预测 原始 未 被 损坏 数据 作为 输出 的 自 编码 吉 。 

DAE 的 训练 过 程 如 图 14.3 中 所 示 。 我 们 引入 一 个 损坏 过 程 C(X | x)， 这 个 条 件 
分 布 代表 给 定数 据 样 本 x 产生 损坏 样本 x 的 概率 。 自 编码 咒 则 根据 以 下 过 程 ， 从 训 
练 数据 对 (z, 2) 中 学 习 重 构 分 布 (reconstruction distribution) preconstruct (X | X): 





1. 从 训练 数据 中 采 一 个 训练 样本 z。 
2. 从 C(x | x = a) 采 一 个 损坏 样本 a. 


3. 将 (x, x) 作为 训 练 样本 来 估计 自 编码 需 的 重 构 分 布 人 | &) = 
Pdecoder (£ | h), 其 中 h 是 编码 需 f(z) 的 输出 > Pdecoder 根据 解码 函数 g(h) 定 

义 。 
通常 我 们 可 以 简单 地 对 负 对 数 似 然 — log paccoder(@ | h) 进行 基于 梯度 法 ( 如 小 批 
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量 梯度 下 降 ) 的 近似 最 小 化 。 只 要 编码 器 是 确定 性 的 ， 去 噪 自 编码 顺 就 是 一 个 前 馈 
网 络 ， 并 且 可 以 使 用 与 其 他 前 馈 网 络 完全 相同 的 方式 进行 训练 。 























图 14.3: 去 噪 自 编码 器 代价 函数 的 计算 图 。 去 噪 自 编码 需 被 训练 为 从 损坏 的 版 本 ae 重 构 干净 数据 
点 Lo 这 可 以 通过 最 小 化 损失 L= — log pqecoder (2 | h= f(z)) 实现 ， 其 中 x 是 样本 T 经 过 损坏 过 
程 C(z| x) 后 得 到 的 损坏 版 本 。 通常 , 分 布 Pdecoder 是 因子 的 分 布 (平均 参数 由 前 馈 网 络 g 给 出 )。 























因此 我 们 可 以 认为 DAE 是 在 以 下 期 望 下 进行 随机 梯度 下 降 ; 




















= Ex Baata (x) Ex. C(%|2) log Paecoder( | h= f(&)), (14.14) 
中 Paata (t) 是 训练 数据 的 分 布 。 











WL 


14.5.1 ”得 分 估计 


得 分 匹配 (Hyvärinen, 2005a) 是 最 大 似 然 的 代替 。 它 提供 了 概率 分 布 的 一 致 估 
计 , 促使 模型 在 各 个 数据 点 zx 上 获得 与 数据 分 布 相同 的 得 分 (score )。 在 这 种 情况 
下 ， 得 分 是 一 个 特定 的 梯度 场 : 

Vlog p(x). (14.15) 

我 们 将 在 第 18.4 节 中 更 详细 地 讨论 得 分 匹配 。 对 于 现在 讨论 的 自 编码 器 ， 理 解 
学 习 log Paata 的 梯度 场 是 学 习 Paata 结构 的 一 种 方式 就 足够 了 。 

DAE 的 训练 准则 (条件 高 斯 ple | h)) 能 让 自 编 码 需 学 到 能 估计 数据 分 布 得 分 
的 向 量 场 (g(f(z)) — x), KE DAE 的 一 个 重要 特性 。 具 体 如 图 14.4 所 示 。 

对 一 类 采用 高 斯 噪声 和 均 方 误差 作为 重 构 误 差 的 特定 去 噪 自 编码 器 (具有 sig- 
moid 隐藏 单元 和 线性 重 构 单 元 ) 的 去 噪 训练 过 程 ,与 训练 一 类 特定 的 被 称 为 RBM 的 
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图 14.4: 去 品 自 编码 右 被 训练 为 将 损坏 的 数据 点 ae 映射 回 原始 数据 点 z。 我 们 将 训练 样本 m 表示 
为 位 于 低 维 流 形 ( 粗 黑 线 ) 附近 的 红 又 。 我 们 用 灰色 圆圈 表示 等 概率 的 损坏 过 程 C(z | a). WE 
头 演示 了 如 何 将 一 个 训练 样本 转换 为 经 过 此 损坏 过 程 的 样本 。 当 训练 去 噪 自 编码 器 最 小 化 平方 误 
25 \Ig(f(@)) — el? 的 平均 值 时 ， 重 构 gO (2) 估计 Ex e~paata cel) ix | Ho a (2) 对 可 能 产生 
的 原始 点 c 的 质心 进行 估计 ， 所 以 向 量 g(f()) 一 多 近似 指向 流 形 上 最 近 的 点 。 因 此 自 编 码 器 可 
以 学 习 由 绿色 箭头 表示 的 向 量 场 g(f(z)) 一 x。 该 向 量 场 将 得 分 V «log paata(z) 估计 为 一 个 乘 性 因 
子 ， 即 重 构 误差 均 方 根 的 平均 。 






























































无 向 概率 模型 是 等 价 的 (Vincent, 2011)。 这 类 模型 将 在 第 20.5.1 节 给 出 更 详细 的 介 
绍 ; 对 于 现在 的 讨论 , 我 们 只 需 知道 这 个 模型 能 显 式 的 给 出 pmoaet(z; 9)。 当 RBM 使 
用 去 噪 得 分 匹配 ( denoising score matching ) 算法 (Kingma and LeCun, 2010a) 训 
练 时 ， 它 的 学 习 算 法 与 训练 对 应 的 去 噪 自 编码 器 是 等 价 的 。 在 一 个 确定 的 噪声 水 平 
下 ， 正 则 化 的 得 分 匹配 不 是 一 致 佑 计量 ; 相反 它 会 恢复 分 布 的 一 个 模糊 版 本 。 然 而 ， 
当 噪 声 水 平 趋向 于 0 且 训 练 样 本 数 趋向 与 无 穷 时 ， 一 致 性 就 会 恢复 。 我 们 将 会 在 
第 18.5 节 更 详细 地 讨论 去 噪 得 分 匹配 。 

自 编码 器 和 RBM 还 存在 其 他 联系 。 在 RBM 上 应 用 得 分 匹配 后 , 其 代价 函数 将 
等 价 于 重 构 误 差 结 合 类 似 CAE 惩罚 的 正则 项 (Swersky et al., 2011)。Bengio and 
Delalleau (2009) 指出 自 编码 器 的 梯度 是 对 RBM 对 比 散 度 训练 的 近似 。 

对 于 连续 的 z， 高 斯 损坏 和 重 构 分 布 的 去 噪 准则 得 到 的 得 分 估计 适用 于 一 般 编 
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码 器 和 解码 器 的 参数 化 (Alain and Bengio, 2013)。 这 意味 着 一 个 使 用 平方 误差 准则 





lg Cf (2)) — al? (14.16) 
和 噪声 方差 为 o? 的 损坏 
C(z-—&|z)-—N(&pn—cmX-c'I) (14.17) 
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图 14.5: 由 去 品 自 编码 器 围绕 1 维 弯曲 流 形 学 习 的 向 量 场 ， 其 中 数据 集中 在 2 维 空间 中 。 每 个 箭 
头 与 重 构 向 量 减 去 自 编 码 需 的 输入 向 量 后 的 向 量 成 比例 ， 并 且 根 据 隐 式 估计 的 概率 分 布 指向 较 高 
的 概率 。 向 量 场 在 估计 的 密度 函数 的 最 大 值 处 (在 数据 流 形 上 ) 和 密度 函数 的 最 小 值 处 都 为 零 。 例 
如 ,螺旋 臂 形 成 局 部 最 大 值 彼此 连接 的 1 维 流 形 。 局 部 最 小 值 出 现在 两 个 臂 间 际 的 中 间 附 近 。 当 重 
构 误 差 的 范 数 (由 箭头 的 长 度 示 出 ) 很 大 时 ， 在 箭头 的 方向 上 移动 可 以 显著 增加 概率 ， 并 且 在 低 
概率 的 地 方 大 多 也 是 如 此 。 自 编码 器 将 这 些 低 概率 点 映射 到 较 高 的 概率 重 构 。 在 概率 最 大 的 情况 
下 ， 重 构 变 得 更 准确 ， 因 此 箭头 会 收缩 。 经 Alain and Bengio (2013) 许可 转载 此 图 。 













































































一 般 情况 下 ， 不 能 保证 重 构 函 数 g(f (a)) 减 去 输入 z 后 对 应 于 某 个 函数 的 梯 
度 ， 更 不 用 说 得 分 。 这 是 早期 工作 (Vincent, 2011) 专用 于 特定 参数 化 的 原因 ( 其 中 
g(f(z)) 一 能 通过 男 一 个 函数 的 导数 获得 )。Kamyshanska and Memisevic (2015) 
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通过 标识 一 类 特殊 的 浅 层 自 编 码 需 家 族 ， 使 g(f(z)) 一 zx 对 应 于 这 个 家 族 所 有 成 员 的 
一 个 得 分 ， 以 此 推广 Vincent (2011) 的 结 

目前 为 止 我 们 所 讨论 的 仅 限于 去 噪 自 编码 器 如 何 学 习 表 示 一 个 概率 分 布 。 更 一 
般 的 ， 我 们 可 能 希望 使 用 自 编码 屁 作 为 生成 模型 ， 并 从 其 分 布 中 进行 采样 。 这 将 在 
第 20.11 节 中 讨论 。 





14.5.2 ”历史 展望 


采用 MLP 去 噪 的 想法 可 以 追溯 到 LeCun (1987) 和 Gallinari et al. (1987) 的 
工作 。Behnke (2001) 也 曾 使 用 循环 网 络 对 图 像 去 品 。 在 某 种 意义 上 ， 去 噪 自 编 码 
器 仅仅 是 被 训练 去 噪 的 MLP。 然 而 ,“ 去 噪 自 编码 器 ”的 命名 指 的 不 仅仅 是 学 习 去 
品 ， 而 且 可 以 学 到 一 个 好 的 内 部 表示 〈 作 为 学 习 去 品 的 副 效用 )。 这 个 想法 提出 较 
晚 (Vincent et al., 2008b, 2010)。 学习 到 的 表示 可 以 被 用 来 预 训练 更 深 的 无 监督 网 络 
或 监督 网 络 。 与 稀 琉 自 编码 器 、 稀 琉 编 码 、 收 缩 自 编码 器 等 正则 化 的 自 编码 器 类 似 ， 
DAE 的 动机 是 允许 学 习 容 量 很 高 的 编码 器 ， 同 时 防止 在 编码 器 和 解码 器 学 习 一 个 无 
用 的 恒 等 函 数 。 

在 引入 现代 DAE 之 前 ，Inayoshi and Kurita (2005) 探索 了 其 中 一 些 相 同 的 方 
法 和 目标 。 他 们 除了 在 监督 目标 的 情况 下 最 小 化 重 构 误 差 之 外 ,还 在 监督 MLP 的 隐 
藏 层 注入 噪声 ， 通 过 引信 重 构 误 差 和 注 人 噪声 提升 泛 化 能 力 。 然 而 ， 他 们 的 方法 基 
于 线性 编码 器 ， 因 此 无 法 学 习 到 现代 DAE 能 学 习 的 强大 函数 族 。 
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如 第 5.11.3 节 描 述 ， 自 编码 需 跟 其 他 很 多 机 需 学 习 算 法 一 样 , 也 利用 了 数据 集中 
在 一 个 低 维 流 形 或 者 一 小 组 这 样 的 流 形 的 思想 。 其 中 一 些 机 需 学习 算法 仅 能 学 习 到 
在 流 形 上 表现 良好 但 给 定 不 在 流 形 上 的 输入 会 导致 异常 的 图 数 。 自 编码 需 进 一 步 借 
此 想法 ， 旨 在 学 习 流 形 的 结构 。 

要 了 解 自 编码 器 如 何 做 到 这 一 点 ， 我 们 必须 介绍 流 形 的 一 些 重 要 特性 。 

流 形 的 一 个 重要 特征 是 切 平 面 (tangent plane) 的 集合 。d 维 流 形 上 的 一 点 a, 
切 平面 由 能 张 成 流 形 上 人 允许 变动 的 局 部 方向 的 d 维基 向 量 给 出 。 如 图 14.6 所 示 ， 这 
些 局 部 方向 决定 了 我 们 能 如 何 微小 地 变动 ae 而 保持 于 流 形 上 。 
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图 14.6: 正切 超 平 面 概念 的 图 示 。 我 们 在 784 维 空间 中 创建 了 1 维 流 形 。 我 们 使 用 一 张 784 像素 
的 MNIST 图 像 ,并 通过 垂直 平移 来 转换 它 。 垂 直 平 移 的 量 定义 沿 着 1 维 流 形 的 坐标 , 轨迹 为 通过 
图 像 空间 的 弯曲 路 径 。 该 图 显示 了 沿 着 该 流 形 的 几 个 点 。 为 了 可 视 化 ,我 们 使 用 PCA 将 流 形 投影 
到 2 维 空间 中 。n 维 流 形 在 每 个 点 处 都 具有 n 维 切 平面 。 该 切 平面 恰好 在 该 点 接触 流 形 pens 
该 点 处 平行 于 流 形 表 面 。 它 定义 了 为 保持 在 流 形 上 可 以 移动 的 方向 空间 。 该 1 维 流 形 具 有 单个 切 
线 。 我 们 在 图 中 示 出 了 一 个 点 处 的 示例 切线 ， 其 中 图 像 表 示 该 切线 方向 在 图 像 空间 中 是 怎样 的 。 灰 
色 像 素 表示 沿 着 切线 移动 时 不 改变 的 像素 ， 白 色 像素 表示 变 亮 的 像素 ， 黑 色 像素 表示 变 暗 的 像素 。 


























































































































所 有 自 编 码 融 的 训练 过 程 涉及 两 种 推动 力 的 折 囊 : 





1. 学 习 训练 样本 z 的 表示 h 使 得 z 能 通过 解码 右 近 似 地 从 h 中 恢复 。z 是 从 训 
练 数据 挑 出 的 这 一 事实 很 关键 ， 因 为 这 意味 着 在 自 编码 器 不 需要 成 功 重 构 不 属 
于 数据 生成 分 布下 的 输入 。 


2. 满足 约束 或 正则 惩罚 。 以 是 限制 自 编码 咒 容 量 的 架构 约束 ， 也 可 以 是 加 入 
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到 重 构 代价 的 一 个 正则 项 。 这 些 技术 一 般 倾向 那些 对 输入 较 不 敏感 的 解 。 


显然 ， 单 一 的 推动 力 是 无 用 的 一 一 从 它 本 身 将 输入 复制 到 输出 是 无 用 的 ， 同 样 
忽略 输入 也 是 没 用 的 。 相 反 ， 两 种 推动 力 结合 是 有 用 的 ， 因 为 它们 驱使 隐藏 的 表示 
能 捕获 有 关 数 据 分 布 结构 的 信息 。 重 要 的 原则 是 ， 自 编码 器 必须 有 能 力 表示 重 构 训 
练 实例 所 需 的 变化 。 如 果 该 数据 生成 分 布 集中 靠近 一 个 低 维 流 形 ， 自 编码 器 能 隐 式 
产生 捕捉 这 个 流 形 局 部 坐标 系 的 表示 : 仅 在 z 周围 关于 流 形 的 相 切 变化 需要 对 应 于 
h= f(a) 中 的 变化 。 因 此 ， 编 码 器 学 习 从 输入 空间 xz 到 表示 空间 的 映射 ， 映 射 仅 对 
沿 着 流 形 方向 的 变化 敏感 ， 并 且 对 流 形 正 交 方向 的 变化 不 敏感。 

图 14.7 中 一 维 的 例子 说 明 ， 我 们 可 以 通过 构建 对 数据 点 周围 的 输入 扰动 不 敏感 
的 重 构 函 数 ， 使 得 自 编码 器 恢复 流 形 结构 。 





— - Identity 
— Optimal reconstruction 























图 14.7: 如 果 自 编码 器 学 习 到 对 数据 点 附近 的 小 扰动 不 变 的 重 构 函 数 ， 它 就 能 捕获 数据 的 流 形 结 
构 。 这 里 ， 流 形 结构 是 0 维 流 形 的 集合 。 虚 线 对 角 线 表示 重 构 的 恒 等 函 数目 标 。 最 佳 重 构 函 数 会 
在 存在 数据 点 的 任意 处 穿 过 恒 等 函 数 。 图 底部 的 水 平 箭头 表示 在 输入 空间 中 基于 箭头 的 r(x) — x 
重建 方向 向 量 ， 总 是 指向 最 近 的 “ 流 形 ”( 1 维 情况 下 的 单个 数据 点 )。 在 数据 点 周围 ， 去 噪 自 编 
码 絮 明确 地 尝试 将 重 构 函数 r(z) 的 导数 限制 为 很 小 。 收 缩 自 编码 器 的 编码 器 执行 相同 操作 。 虽 然 
在 数据 点 周围 ，7(z) 的 导数 被 要 求 很 小 ,但 在 数据 点 之 间 它 可 能 会 很 大 。 数 据点 之 间 的 空间 对 应 
于 流 形 之 间 的 区 域 ， 为 将 损坏 点 映射 回流 形 ， 重 构 函 数 必须 具有 大 的 导数 。 































































































为 了 理解 自 编 码 器 可 用 于 流 形 学 习 的 原因 ， 我 们 可 以 将 自 编码 器 和 其 他 方法 进 
行 对 比 。 学习 表征 流 形 最 常见 的 是 流 形 上 (或 附近 ) 数据 点 的 表示 (representation )。 
对 于 特定 的 实例 ,这样 的 表示 也 被 称 为 舰 入 。 它 通常 由 一 个 低 维 向 量 给 出 ,具有 比 这 
个 流 形 的 “外 围 ” 空 间 更 少 的 维 数 。 有 些 算法 (下面 讨 论 的 非 参 数 流 形 学 习 算法 ) E 
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接 学 习 每 个 训练 样 例 的 舱 入 ， 而 其 他 算法 学 习 更 一 般 的 映射 (有 时 被 称 为 编码 器 或 
表示 函数 )， 将 周围 空间 ( 输入 空间 ) 的 任意 点 映射 到 它 的 舰 入 。 

流 形 学 习 大 多 专注 于 试图 捕 提 到 这 些 流 形 的 无 监督 学 习 过 程 。 最 初始 的 学 习 非 
线性 流 形 的 机 器 学 习 人 研究 专 注 基 于 最 近邻 图 (nearest neighbor graph ) 的 非 参 数 
(non-parametric ) 方法 。 该 图 中 每 个 训练 样 例 对 应 一 个 节点 , 它 的 边 连接 近邻 点 对 。 如 
图 14.8 所 示 ， 这 些 方法 (Schólkopf et al., 1998b; Roweis and Saul, 2000; Tenenbaum 
et al., 2000; Brand, 2003b; Belkin and Niyogi, 2003a; Donoho and Grimes, 2003; 
Weinberger and Saul, 2004b; Hinton and Roweis, 2003; van der Maaten and Hinton, 
2008) 将 每 个 节点 与 张 成 实例 和 近邻 之 间 的 差 向 量变 化 方向 的 切 平面 相关 联 。 

















图 14.8: 非 参 数 流 形 学 习 过 程 构建 的 最 近邻 图 ， 其 中 节点 表示 训练 样本 ， 有 向 边 指示 最 近邻 关系 。 
因此 ， 各 种 过 程 可 以 获得 与 图 的 邻 域 相关 联 的 切 平 面 以 及 将 每 个 训练 样本 与 实 值 向 量 位 置 或 典 入 
(embedding ) 相关 联 的 坐标 系 。 我 们 可 以 通过 搬 值 将 这 种 表示 概括 为 新 的 样本 。 只 要 样本 的 数量 
大 到 足以 覆盖 流 形 的 弯曲 和 扭转 ， 这 些 方法 工作 良好 。 图 片 来 自 QMUL 多 角度 人 脸 数据 集 (Gong 
et al., 2000). 

































































全 局 坐标 系 则 可 以 通过 优化 或 求解 线性 系统 获得 。 图 14.9 展示 了 如 何 通过 大 量 
局 部 线性 的 类 高 斯 样 平 铺 (或 “ 薄 煎 饼 ”， 因 为 高 斯 块 在 切 平面 方向 是 扁平 的 ) 得 到 


3 PA 
一 个 流 形 。 
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图 14.9: 如 果 每 个 位 置 处 的 切 平面 ( 见 图 14.6 ) 是 已 知 的 ， 则 它们 可 以 平 铺 后 形成 全 局 坐标 系 或 
密度 函数 。 每 个 局 部 块 可 以 被 认为 是 局 部 欧 几 里 德 坐标 系 或 者 是 局 部 平面 高 斯 或 “薄饼 "， 在 与 薄 
饼 正 交 的 方向 上 具有 非常 小 的 方差 而 在 定义 坐标 系 的 方向 上 具有 非常 大 的 方差 。 这 些 高 斯 的 混合 
提供 了 估计 的 密度 函数 ， 如 流 形 中 的 Parzen 窗口 算法 (Vincent and Bengio, 2003) 或 其 非 局 部 的 
基于 神经 网 络 的 变 体 (Bengio et al., 2006c)。 









































然而 ，Bengio and Monperrus (2005) 指出 了 这 些 局 部 非 参 数 方法 应 用 于 流 形 学 
习 的 根本 困难 : 如 果 流 形 不 是 很 光滑 ( 它们 有 许多 波峰 、 波 谷 和 曲折 )， 为 覆盖 其 
中 的 每 一 个 变化 ， 我 们 可 能 需要 非常 多 的 训练 样本 ， 导 致 没有 能 力 泛 化 到 没 见 过 的 
变化 。 实 际 上 ， 这 些 方法 只 能 通过 内 插 ， 概 括 相 邻 实 例 之 间 流 形 的 形状 。 不 幸 的 是 ， 
AI 问题 中 涉及 的 流 形 可 能 具有 非常 复杂 的 结构 ， 难 以 仅 从 局 部 插值 捕获 特征 。 考 虑 
图 14.6 转换 所 得 的 流 形 样 例 。 如 果 我 们 只 观察 输入 向 量 内 的 一 个 坐标 zx; ， 当 平移 图 
像 ， 我 们 可 以 观察 到 当 这 个 坐标 遇 到 波峰 或 波 谷 时 ， 图 像 的 亮度 也 会 经 历 一 个 波峰 
或 波 谷 。 换 名 话说， 底层 图 像 模 板 亮度 的 模式 复杂 性 决定 执行 简单 的 图 像 变换 所 产 
生 的 流 形 的 复杂 性 。 这 是 采用 分 布 式 表示 和 深度 学 习 捕 获 流 形 结构 的 动机 。 
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14.7 ”收缩 自 编码 器 


收缩 自 编 码 器 (Rifai et al., 2011a,b) 在 编码 h= f(a) 的 基础 上 添加 了 显 式 的 正 
则 项 ， 鼓 励 f 的 导数 尽 可 能 小 : 


2 


Of (a) 


Ox 


惩罚 项 Q(h) 为 平方 Frobenius 18/3 ( 2628? Zr ZA), A 52803 38 B] PROF 
关 偏 导数 的 Jacobian 和 矩阵。 

去 噪 自 编码 器 和 收缩 自 编 码 器 之 间 存 在 一 定 联 系 : Alain and Bengio (2013) 指出 
在 小 高 斯 噪声 的 限制 下 ， 当 重 构 函数 将 z 映射 到 了 = g(f(z)) 时 ,去 噪 重 构 误 差 与 收 
缩 惩 罚 项 是 等 价 的 。 换 句 话 说， 去 噪 自 编码 器 能 抵抗 小 且 有 限 的 输入 扰动 ， 而 收缩 
自 编码 器 使 特征 提取 函数 能 抵抗 极 小 的 输入 扰动 。 

分 类 任务 中 ， 基 于 Jacobian 的 收缩 惩罚 预 训练 特征 函数 f(x)， 将 收缩 惩罚 应 
用 在 f(a) 而 不 是 g(f(z)) 可 以 产生 最 好 的 分 类 精度 。 如 第 14.5.1 节 所 讨论 ， 应 用 于 
f(z) 的 收缩 惩罚 与 得 分 匹配 也 有 紧密 的 联系 。 

收缩 (contractive ) 源 于 CAE 弯曲 空间 的 方式 。 具 体 来 说 ， 由 于 CAE 训练 为 
抵抗 输入 扰动 ， 鼓 励 将 输入 点 邻 域 映射 到 输出 点 处 更 小 的 邻 域 。 我 们 能 认为 这 是 将 
输入 的 邻 域 收缩 到 更 小 的 输出 邻 域 。 

说 得 更 清楚 一 点 ，CAE 只 在 局 部 收缩 个 训练 样本 ac 的 所 有 扰动 都 映射 到 
f(a) 的 附近 。 全 局 来 看 ， 两 个 不 同 的 点 zx 和 a! 会 分 别 被 映射 到 远离 原点 的 两 个 点 
f(a) 和 jz)。 上 扩展 到 数据 流 形 的 中 间或 远 处 是 合理 的 〈 见 图 14.7 中 小 例子 的 情 
况 ), 当 O(h) 惩罚 应 用 于 sigmoid 单元 时 , 收缩 Jacobian 的 简单 方式 是 令 sigmoid 趋 
向 饱和 的 0 或 1。 这 鼓励 CAE 使 用 sigmoid 的 极 值 编码 输入 点 , 或 许可 以 解释 为 二 
进 制 编码 。 它 也 保证 了 CAE 可 以 穿 过 大 部 分 sigmoid 隐藏 单元 能 张 成 的 超 立 方 体 ， 
进而 扩散 其 编码 值 。 

我 们 可 以 认为 点 a 处 的 Jacobian FHKE J 能 将 非 线 性 编码 器 近似 为 线性 算 子 。 这 
允许 我 们 更 形式 地 使 用 “收缩 ”这 个 词 。 在 线性 理论 中 ， 当 Je 的 范 数 对 于 所 有 单位 
2 都 小 于 等 于 1 时 ，J 被 称 为 收缩 的 。 换 名 话说， 如果 J 了 收缩 了 单位 球 ， 他 就 是 收 
缩 的 。 我 们 可 以 认为 CAE 为 鼓励 每 个 局 部 线性 算 子 具 有 收缩 性 ， 而 在 每 个 训练 数据 
点 处 将 Frobenius 范 数 作为 f(x) 的 局 部 线性 近似 的 惩罚 。 

如 第 14.6 节 中 描述 , 正则 自 编 码 器 基于 两 种 相反 的 推动 力学 习 流 形 。 在 CAE 的 


Qh) =A (14.18) 
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情况 下 ， 这 两 种 推动 力 是 重 构 误 差 和 收缩 惩罚 Q(h)。 单 独 的 重 构 误 差 鼓 励 CAE 学 
习 一 个 恒 等 函数 。 单 独 的 收缩 惩罚 将 鼓励 CAE 学 习 关 于 r 是 恒定 的 特征 。 这 两 种 
推动 力 的 的 折衷 产生 导数 AO 大 多 是 微小 的 自 编码 器 。 只 有 少数 隐藏 单元 ， 对 应 于 
一 小 部 分 输入 数据 的 方向 ， 可 能 有 显著 的 导数 。 

CAE 的 目标 是 学 习 数 据 的 流 形 结构 。 使 Ja 很 大 的 方向 z， 会 快速 改变 h, Al 
此 很 可 能 是 近似 流 形 切 平面 的 方向 。Rifai et al. (2011a,b) 的 实验 显示 训练 CAE 会 
导致 J 中 大 部 分 奇异 值 ( 幅 值 ) 比 1 小 ， 因 此 是 收缩 的 。 然 而 ， 有 些 奇异 值 仍然 比 
1 大 ， 因 为 重 构 误 差 的 惩罚 鼓励 CAE 对 最 大 局 部 变化 的 方向 进行 编码 。 对 应 于 最 大 
奇异 值 的 方向 被 解释 为 收缩 自 编码 器 学 到 的 切 方 向 。 理 想 情 况 下 ， 这 些 切 方向 应 对 
应 于 数据 的 真实 变化 。 比 如 ,一 个 应 用 于 图 像 的 CAE 应 该 能 学 到 显示 图 像 改 变 的 切 
向 量 ， 如 图 14.6 图 中 物体 渐渐 改变 状态 。 如 图 14.10 所 示 ， 实验 获得 的 奇异 向 量 的 可 
视 化 似乎 真 的 对 应 于 输入 图 象 有 意义 的 变换 。 


Input | Tangent vectors 


point 





Local PCA (no sharing across regions) 





En" T A 
[1555 


Contractive autoencoder 


14.10: 通过 局 部 PCA 和 收缩 自 编码 器 估计 的 流 形 切 向 量 的 图 示 。 流 形 的 位 置 由 来 自 CIFAR-10 
数据 集中 狗 的 输入 图 像 定 义 。 切 向 量 通 过 输入 到 代码 映射 的 Jacobian 矩阵 2^ 的 前 导 奇 异 向 量 估 
计 。 虽 然 局 部 PCA 和 CAE 都 可 以 捕获 局 部 切 方向 , 但 CAE 能 够 从 有 限 训练 数据 形成 更 准确 的 
估计 ， 因 为 它 利 用 了 不 同位 置 的 参数 共享 ( 共享 激活 的 隐藏 单元 子 集 )。CAE 切 方向 通常 对 应 于 物 
体 的 移动 或 改变 部 分 ( 例如 头 或 腿 )。 经 Rifai et al. (2011c) 许可 转载 此 图 。 


















































收缩 自 编 码 天 正则 化 准则 的 一 个 实际 问题 是 ， 尽 管 它 在 单一 隐藏 层 的 自 编码 
器 情况 下 是 容易 计算 的 ， 但 在 更 次 的 自 编码 器 情况 下 会 变 的 难以 计算 。 根 据 Rifai 
et al. (2011a) 的 策略 ， 分 别 训练 一 系列 单 层 的 自 编码 器 ， 并 且 每 个 被 训练 为 重 构 前 
一 个 自 编 码 需 的 隐藏 层 。 这 些 自 编 码 融 的 组 合 就 组 成 了 一 个 深度 自 编码 器 。 因 为 每 
个 层 分 别 训 练 成 局 部 收缩 ， 深 度 自 编码 器 自然 也 是 收缩 的 。 这 个 结果 与 联合 训练 深 
度 模 型 完整 架构 ( 带 有 关于 Jacobian 的 惩罚 项 ) 获得 的 结果 是 不 同 的 ， 但 它 抓 住 了 
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许多 理想 的 定性 特征 。 

另 一 个 实际 问题 是 ， 如 果 我 们 不 对 解码 器 强加 一 些 约束 ， 收 缩 惩罚 可 能 导致 无 
用 的 结果 。 例 如 ， 编 码 器 将 输入 乘 一 个 小 常数 e， 解 公 器 将 编码 除 以 一 个 小 常数 e。 
随 着 e 趋向 于 0， 编 码 器 会 使 收缩 惩罚 项 Q(h) 趋向 于 0 而 学 不 到 任何 关于 分 布 的 信 
息 。 同 时 ， 解 码 器 保持 完美 的 重 构 。Rifai et al. (2011a) 通过 绑 定 f Wü g 的 权重 来 
防止 这 种 情况 。f 和 g 都 是 由 线性 仿 射 变换 后 进行 逐 元 素 非 线性 变换 的 标准 神经 网 
络 层 组 成 ， 因 此 将 9 的 权重 矩阵 设 成 f 权重 和 矩阵 的 转 置 是 很 直观 的 。 





14.8 Ju mE we 


预测 稀疏 分 解 ( predictive sparse decomposition, PSD ) EFi zm US UE A 
编码 器 (Kavukcuoglu et aL, 2008) 的 混合 模型 。 参 数 化 编码 器 被 训练 为 能 预测 迭代 
推断 的 输出 。PSD 被 应 用 于 图 片 和 视频 中 对 象 识别 的 无 监督 特征 学 习 (Kavukcuoglu 
et al., 2009, 2010; Jarrett et al., 2009b; Farabet et aL, 2011) ， 在 音频 中 也 有 所 应 用 
(Henaff et al., 2011)。 这 个 模型 由 一 个 编码 器 f (a) 和 一 个 解码 器 g(h) 组 成 ,并且 都 
是 参数 化 的 。 在 训练 过 程 中 ，h 由 优化 算法 控制 。 优 化 过 程 是 最 小 化 





læ- g(P + Aliis yl FAD. (14.19) 


就 像 稀 玻 编码 ， 训 练 算法 交替 地 相对 h 和 模型 的 参数 最 小 化 上 述 目标 。 相 对 h 最 小 
化 较 快 ;因为 f(a) 提供 h 的 良好 初始 值 以 及 损失 函数 将 h 约束 在 f(x) 附近 。 简 单 
的 梯度 下 降 算 法 只 需 10 步 左 右 就 能 获得 理想 的 h。 

PSD 所 使 用 的 训练 程序 不 是 先 训练 稀疏 编码 模型 ， 然 后 训练 f (o) SE PRU ARS ifi 
编码 的 特征 。PSD 训练 过 程 正 则 化 解码 器 ， 使 用 f(x) 可 以 推断 出 良好 编码 的 参数 。 

预测 稀 玻 分 解 是 学 习 近 似 推断 (learned approximate inference ) 的 一 个 例子 。 
在 第 19.5 节 中 ， 这 个 话题 将 会 进一步 展开 。 第 十 九 章 中 展示 的 工具 能 让 我 们 了 解 到 ， 
PSD 能 够 被 解释 为 通过 最 大 化 模型 的 对 数 似 然 下 界 训练 有 向 稀 玻 编码 的 概率 模型 。 

在 PSD 的 实际 应 用 中 ， 和 迭代 优化 仅 在 训练 过 程 中 使 用 。 模 型 被 部 署 后 ， 人 参数 编 
tat f 用 于 计算 已 经 习 得 的 特征 。 相 比 通过 梯度 下 降 推 断 h, YES. f 是 很 容易 的 。 
因为 f 是 一 个 可 微 带 参 函 数 ，PSD 模型 可 堆 善 ， 并 用 于 初始 化 其 他 训练 准则 的 深度 
网 络 。 
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14.9 ” 自 编码 器 的 应 用 


自 编 码 带 已 成 功 应 用 于 降 维和 信息 检索 任务 。 降 维 是 表示 学 习 和 深度 学 习 的 第 
一 批 应 用 之 一 。 它 是 研究 自 编码 器 早期 驱动 力 之 一 。 例如 , Hinton and Salakhutdinov 
(2006) 训练 了 一 个 栈 式 RBM, 然后 利用 它们 的 权重 初始 化 一 个 隐藏 层 逐 渐 减 小 的 深 
度 自 编码 器 ， 终 结 于 30 个 单元 的 瓶颈 。 生 成 的 编码 比 30 维 的 PCA 产生 更 少 的 重 
构 误 差 ， 所 学 到 的 表示 更 容易 定性 解释 ， 并 能 联系 基础 类 别 ,， 这 些 类 别 表 现 为 分 离 
良好 的 集群 。 

低 维 表示 可 以 提高 许多 任务 的 性 能 ， 例 如 分 类 。 小 空间 的 模型 消耗 更 少 的 内 存 
和 运行 时 间 。 据 Salakhutdinov and Hinton (2007b) 和 Torralba et al. (2008) WE, 
许多 降 维 的 形式 会 将 语义 上 相关 的 样本 置 于 彼此 邻近 的 位 置 。 映 射 到 低 维 空间 所 提 
供 的 线索 有 助 于 泛 化 。 

相 比 普通 任务 ， 信 息 检索 (information retrieval) 从 降 维 中 获 益 更 多 ， 此 任务 
需要 找到 数据 库 中 类 似 查询 的 条 目 。 此 任务 不 仅 和 其 他 任务 一 样 从 降 维 中 获得 一 般 
益处 ,还 使 某 些 低 维 空间 中 的 搜索 变 得 极为 高 效 。 特 别 的 ， 如 果 我 们 训练 降 维 算法 生 
成 一 个 低 维 且 二 值 的 编码 ， 那 么 我 们 就 可 以 将 所 有 数据 库 条 目 在 哈 希 表 映 射 为 二 值 
编码 向 量 。 这 个 哈 希 表 人 允许 我 们 返回 具有 相同 二 值 编码 的 数据 库 条 目 作 为 查询 结 
进行 信息 检索 。 我 们 也 可 以 非常 高 效 地 搜索 稍 有 不 同 条 目 ， 只 需 反 转 查询 编码 的 各 
个 位 。 这 种 通过 降 维和 二 值 化 的 信息 检索 方法 被 称 为 语义 哈 希 (semantic hashing ) 
(Salakhutdinov and Hinton, 2007b, 2009b) , 已 经 被 用 于 文本 输入 (Salakhutdinov and 
Hinton, 2007b, 2009b) 和 图 像 (Torralba et al., 2008; Weiss et al., 2008; Krizhevsky 
and Hinton, 2011). 

通常 在 最 终 层 上 使 用 sigmoid Zgfi eh BOE 15 SCR 49 IT] (Ait. sigmoid 单元 
必须 被 训练 为 到 达 饱 和 ， 对 所 有 输入 值 都 接近 0 或 接近 1。 能 做 到 这 一 点 的 窍门 就 
是 训练 时 在 sigmoid 非 线 性 单元 前 简单 地 注入 加 性 噪声 。 噪 声 的 大 小 应 该 随时 间 增 
加 。 要 对 抗 这 种 噪音 并 且 保 存 尽 可 能 多 的 信息 ， 网 络 必须 加 大 输入 到 sigmoid 函数 
的 幅度 ， 直 到 饱和 。 

学 习 哈 希 函 数 的 思想 已 在 其 他 多 个 方向 进一步 探讨 ， 包 括 改 变 损 失 训 练 表 
示 的 想法 ， 其 中 所 需 优 化 的 损失 与 哈 希 表 中 查找 附近 样本 的 任务 有 更 直接 的 联系 
(Norouzi and Fleet, 2011). 
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在 本 章 中 ， 首 先 我 们 会 讨论 学 习 表 示 是 什么 意思 ， 以 及 表示 的 概念 如 何 有 助 于 
深度 框架 的 设计 。 我 们 探讨 学 习 算法 如 何在 不 同 任务 中 共享 统计 信息 ， 包 括 使 用 无 
监督 任务 中 的 信息 来 完成 监督 任务 。 共 享 表示 有 助 于 处 理 多 模式 或 多 领域 ,， 或 是 将 
已 学 到 的 知识 迁移 到 样本 很 少 或 没有 、 但 任务 表示 依然 存在 的 任务 上 。 最 后 ， 我 们 
回 过 头 探讨 表示 学 习 成 功 的 原因 ， 从 分 布 式 表示 (Hinton et al., 1986) 和 深度 表示 的 
理论 优势 ， 最 后 会 讲 到 数据 生成 过 程 潜在 假设 的 更 一 般 概念 ， 特 别 是 观测 数据 的 基 
本 成 因 。 

很 多 信息 处 理 任务 可 能 非常 容易 ， 也 可 能 非常 困难 ， 这 取决 于 信息 是 如 何 表示 
的 。 这 是 一 个 广泛 适用 于 日 常生 活 、 计 算 机 科学 及 机 需 学 习 的 基本 原则 。 例 如 ， 对 于 
人 而 言 ， 可 以 直接 使 用 长 除法 计算 210 除 以 6。 但 如 果 使 用 罗马 数字 表示 ， 这 个 问 
题 就 没 那么 直接 了 。 大 部 分 现代 人 在 使 用 罗马 数字 计算 CCX 除 以 VI 时 ， 都 会 将 其 
转化 成 阿拉 人 数字， 从 而 使 用 位 值 系统 的 长 除法 。 更 具体 地 ， 我 们 可 以 使 用 合适 或 
不 合适 的 表示 来 量化 不 同 操作 的 渐 近 运行 时 间 。 例 如 ， 插 入 一 个 数字 到 有 序 表 中 的 
正确 位 置 ， 如 果 该 数列 表示 为 链表 ， 那 么 所 需 时 间 是 Oln); 如 果 该 列表 表示 为 红 黑 
树 ， 那 么 只 需要 O(logn) 的 时 间 。 

在 机 器 学 习 中 ， 到 底 是 什么 因素 决定 了 一 种 表示 比 另 一 种 表示 更 好 呢 ? 一 般 而 











言 ， 一 个 好 的 表示 可 以 使 后 续 的 学 习 任务 更 容易 。 选 择 什么 表示 通常 取决 于 后 续 的 
学 习 任 务 。 


我 们 可 以 将 监督 学 习 训练 的 前 馈 网 络 视 为 表示 学 习 的 一 种 形式 。 具 体 地 ， 网 络 
的 最 后 一 层 通常 是 线性 分 类 器 ， 如 softmax 回归 分 类 器 。 网 络 的 其 余部 分 学 习 出 该 
分 类 顺 的 表示 。 监 督学 习 训练 模型 ， 一 般 会 使 得 模型 的 各 个 隐藏 层 ( 特别 是 接近 顶 
层 的 隐藏 层 ) 的 表示 能 够 更 加 容易 地 完成 训练 任务 。 例 如 ， 输 入 特征 线性 不 可 分 的 
类 别 可 能 在 最 后 一 个 隐藏 层 变 成 线性 可 分 离 的 。 原 则 上 ， 最 后 一 层 可 以 是 男 一 种 模 
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型 ， 如 最 近邻 分 类 器 (Salakhutdinov and Hinton, 2007a)。 倒 数 第 二 层 的 特征 应 该 根 
据 最 后 一 层 的 类 型 学 习 不 同 的 性 质 。 

前 馈 网 络 的 监督 训练 并 没有 给 学 成 的 中 间 特 征明 确 强 加 任何 条 件 。 其 他 的 表示 
学 习 算 法 往往 会 以 某 种 特定 的 方式 明确 设计 表示 。 例 如 ， 我 们 想 要 学 习 一 种 使 得 密 
度 估计 更 容易 的 表示 。 具 有 更 多 独立 性 的 分 布 会 更 容易 建 模 ， 因 此 ,我 们 可 以 设计 
WRR HE h 中 元 素 之 间 相 互 独 立 的 目标 函数 。 就 像 监 督 网 络 ， 无 监督 深度 学 习 
算法 有 一 个 主要 的 训练 目标 ,但 也 额外 地 学 习 出 了 表示 。 不 论 该 表示 是 如 何 得 到 的 ， 
它 都 可 以 用 于 其 他 任务 。 或 者 , 多 个 任务 (有些 是 监督 的 ,， 有 些 是 无 监督 的 ) 可 以 通 
过 共享 的 内 部 表示 一 起 学 习 。 

大 多 数 表示 学 习 算 法 都 会 在 尽 可 能 多 地 保留 与 输入 相关 的 信息 和 追求 良好 的 性 
质 (如 独立 性 ) 之 间作 出 权衡 。 

表示 学 习 特 别 有 趣 ， 因 为 它 提 供 了 进行 无 监督 学 习 和 半 监 督学 习 的 一 种 方法 。 
我 们 通常 会 有 巨 量 的 未 标注 训练 数据 和 相对 较 少 的 标注 训练 数据 。 在 非常 有 限 的 标 
注 数 据 集 上 监督 学 习 通 常会 导致 严重 的 过 拟 合 。 半 监督 学 习 通 过 进一步 学 习 未 标 
注 数 据 ， 来 解决 过 拟 合 的 问题 。 具 体 地 ， 我 们 可 以 从 未 标注 数据 上 学 习 出 很 好 的 表 
示 ， 然 后 用 这 些 表示 来 解决 监督 学 习 问 题 。 

人 类 和 动物 能 够 从 非常 少 的 标注 样本 中 学 习 。 我 们 至 今 仍 不 知道 这 是 如 何 做 到 
的 。 有 许多 假说 解释 人 类 的 卓越 学 习 能 力 一 一 例如 ， 大 脑 可 能 使 用 了 大 量 的 分 类 器 
或 者 贝 叶 斯 推断 技术 的 集成 。 一 种 流行 的 假说 是 ， 大 脑 能 够 利用 无 监督 学 习 和 半 监 
督学 习 。 利 用 未 标注 数据 有 多 种 方式 。 在 本 章 中 ， 我 们 主要 使 用 的 假说 是 未 标注 数 
据 可 以 学 习 出 良好 的 表示 。 
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无 监督 学 习 在 深度 神经 网 络 的 复兴 上 起 到 了 关键 的 、 历 史 性 的 作用 ， 它 使 研究 
者 首次 可 以 训练 不 含 诸如 卷 积 或 者 循环 这 类 特殊 结构 的 深度 监督 网 络 。 我 们 将 这 一 
过 程 称 为 无 监督 预 训练 (unsupervised pretraining ), 或 者 更 精确 地 ， 贪 心 逐 层 无 监 
督 预 训练 ( greedy layer-wise unsupervised pretraining )。 此 过 程 是 一 个 任务 (无 监 
督学 习 ， 尝 试 获 取 输 入 分 布 的 形状 ) 的 表示 如 何 有 助 于 另 一 个 任务 (具有 相同 输入 
域 的 监督 学 习 ) 的 典型 示例 。 


贪心 逐 层 无 监督 预 训练 依赖 于 单 层 表示 学 习 算法 ， 例 如 RBM、 单 层 自 编码 器 、 








ww ai bbc. com r1 HL BH BLBL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
450 ETEF “表示 学 习 





稀 玻 编码 模型 或 其 他 学 习 淤 在 表示 的 模型 。 每 一 层 使 用 无 监督 学 习 预 训练 ， 将 前 一 
层 的 输出 作为 输入 ， 输 出 数据 的 新 的 表示 。 这 个 新 的 表示 的 分 布 〈 或 者 是 和 其 他 变 
量 比如 要 预测 类 别 的 关系 ) 有 可 能 是 更 简单 的 。 如 算法 15.1 所 示 的 正式 表述 。 











算法 15.1 贪心 逐 层 无 监督 预 训练 的 协定 
给 定 如 下 : 无 监督 特征 学 习 算 法 C. L 使 用 训练 集 样 本 并 返回 编码 器 或 特征 函数 f 
原始 输入 数据 是 X, 每 行 一 个 样本 , 并 且 SOX) 是 第 一 阶段 编码 器 关于 X 的 输出 。 
在 执行 精 调 的 情况 下 ， 我 们 使 用 学 习 者 夏 ， 并 使 用 初始 函数 f， 输 入 样本 X (以 及 
在 监督 精 调 情况 下 关联 的 目标 了 Y)， 并 返回 细 调 好 函数 。 阶 段 数 为 mo 

f — 恒 等 函 数 

X-x 
for k — 1,...,m do 

f® =L£(X) 

ff of 

X — f(X) 


end for 





if fine-tuning then 
| — T(.X. Y) 

end if 

Return f 





基于 无 监督 标准 的 贪心 逐 层 训练 过 程 ， 早 已 被 用 来 规避 监督 问题 中 深度 神经 网 
络 难以 联合 训练 多 层 的 问题 。 这 种 方法 至 少 可 以 追溯 神经 认 知 机 (Fukushima, 1975). 
深度 学 习 的 复兴 始 于 2006 F, 源 于 发 现 这 种 贪心 学 习 过 程 能 够 为 多 层 联 合 训 练 过 程 
找到 一 个 好 的 初始 值 , 甚至 可 以 成 功 训练 全 连接 的 结构 (Hinton et al., 2006b; Hinton 
and Salakhutdinov, 2006; Hinton, 2006; Bengio et al., 2007d; Ranzato et al., 2007a)。 
在 此 发 现 之 前 ， 只 有 深度 卷 积 网 络 或 深度 循环 网 络 这 类 特殊 结构 的 深度 网 络 被 认为 
是 有 可 能 训练 的 。 现 在 我 们 知道 训练 具有 全 连接 的 深度 结构 时 ， 不 再 需要 使 用 贪心 
逐 层 无 监督 预 训练 ， 但 无 监督 预 训练 是 第 一 个 成 功 的 方法 。 

贪心 逐 层 无 监督 预 训练 被 称 为 贪心 (greedy) 的 ， 是 因为 它 是 一 个 贪心 算法 
(greedy algorithm )， 这 意味 着 它 独立 地 优化 解决 方案 的 每 一 个 部 分 ， 每 一 步 解 决 一 
个 部 分 , 而 不 是 联合 优化 所 有 部 分 。 它 被 称 为 逐 层 的 ( layer-wise ), 是 因为 这 些 独 立 
的 解决 方案 是 网 络 层 。 具 体 地 ,贪心 逐 层 无 监督 预 训练 每 次 处 理 一 层 网 络 ， 训练 第 
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层 时 保持 前 面 的 网 络 层 不 变 。 特 别 地 ， 低 层 网 络 〈 最 先 训练 的 ) 不 会 在 引入 高 层 网 
络 后 进行 调整 。 它 被 称 为 无 监督 ( unsupervised ) 的 ,是 因为 每 一 层 用 无 监督 表示 学 
习 算 法 训练 。 然 而 ， 它 也 被 称 为 预 训练 ( pretraining )， 是 因为 它 只 是 在 联合 训练 算 
法 精 调 (fine-tune) 所 有 层 之 前 的 第 一 步 。 在 监督 学 习 任 务 中 ， 它 可 以 被 看 作 是 正 
则 化 项 (在 一 些 实验 中 ， 预 训练 不 能 降低 训练 误差 .但 能 降低 测试 误差 ) 和 参数 初 
始 化 的 一 种 形式 。 

通常 而 言 ,“ 预 训练 ”不 仅 单 指 预 训 练 阶段 ， 也 指 结合 预 训练 和 监督 学 习 的 两 阶 
段 学 习 过 程 。 监 督学 习 阶 段 可 能 会 使 用 预 训 练 阶 段 得 到 的 顶层 特征 训练 一 个 简单 分 
类 器 ， 或 者 可 能 会 对 预 训练 阶段 得 到 的 整个 网 络 进行 监督 精 调 。 不 管 采用 什么 类 型 
的 监督 学 习 算 法 和 模型 ， 在 大 多 数 情 况 下 ， 整 个 训练 过 程 几 乎 是 相同 的 。 虽 然 无 监 
督学 习 算 法 的 选择 将 明显 影响 到 细节 ， 但 是 大 多 数 无 监督 预 训练 应 用 都 遵循 这 一 基 

贪心 逐 层 无 监督 预 训练 也 能 用 作 其 他 无 监督 学 习 算法 的 初始 化 ， 比 如 深度 自 编 
fa (Hinton and Salakhutdinov, 2006) 和 具有 很 多 潜 变 量 层 的 概率 模型 。 这 些 模 
型 包括 深度 信念 网 络 (Hinton et aL, 2006b) 和 深度 玻 尔 效 曼 机 (Salakhutdinov and 
Hinton, 2009c)。 这 些 深 度 生 成 模型 会 在 第 二 十 章 中 讨论 。 

正如 第 8.7.4 节 所 探讨 的 ， 我 们 也 可 以 进行 贪心 未 层 监督 预 训练 。 这 是 建立 在 
训练 浅 层 模型 比 深度 模型 更 容易 的 前 提 下 ， 而 该 前 提 似 乎 在 一 些 情况 下 已 被 证 
实 (Erhan et al., 2010). 








15.1.1 何 时 以 及 为 何 无 监督 预 训练 有 效 ? 


在 很 多 分 类 任务 中 ， 贪 心 逐 层 无 监督 预 训练 能 够 在 测试 误差 上 获得 重大 提升 。 
这 一 观察 结果 始 于 2006 年 对 深度 神经 网 络 的 重新 关注 (Hinton et al., 2006b; Bengio 
et al., 2007d; Ranzato et al., 2007a)。 然 而 ， 在 很 多 其 他 问题 上 ， 无 监督 预 训练 不 能 
带 来 改善 ， 甚 至 还 会 带 来 明显 的 负面 影响 。Ma et al. (2015) 研究 了 预 训练 对 机 器 学 
习 模 型 在 化 学 活性 预测 上 的 影响 。 结 果 发 现 ， 平 均 而 言 预 训练 是 有 轻微 负面 影响 的 ， 
但 在 有 些 问 题 上 会 有 显著 帮助 。 由 于 无 监督 预 训练 有 时 有 效 ， 但 经 常 也 会 带 来 负面 
效果 ， 因 此 很 有 必要 了 解 它 何 时 有 效 以 及 有 效 的 原因 ， 以 确定 它 是 否 适 合用 于 特定 
的 任务 。 

首先 , 要 注意 的 是 这 个 讨论 大 部 分 都 是 针对 贪心 无 监督 预 训 练 而 言 。 还 有 很 多 其 
他 完全 不 同 的 方法 使 用 半 监 督学 习 来 训练 神经 网 络 ， 比 如 第 7.13 节 介 绍 的 虚拟 对 抗 
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训练 。 我 们 还 可 以 在 训练 监督 模型 的 同时 训练 自 编 码 需 或 生成 模型 。 这 种 单 阶段 方 
法 的 例子 包括 判别 RBM (Larochelle and Bengio, 2008a) 和 梯形 网 络 (Rasmus et al., 
2015)， 其 中 整体 目标 是 两 项 之 和 ( 一 个 使 用 标签 ， 另 一 个 仅仅 使 用 输入 )。 

无 监督 预 训 练 结 合 了 两 种 不 同 的 想法 。 第 一 ， 它 利用 了 深度 神经 网 络 对 初始 参 
数 的 选择 ， 可 以 对 模型 有 着 显著 的 正则 化 效果 (在 较 小 程度 上 ， 可 以 改进 优化 ) 的 
想法 。 第 二 ， 它 利用 了 更 一 般 的 想法 一 一 学 习 输 入 分 布 有 助 于 学 习 从 输入 到 输出 的 
映射 。 

这 两 个 想法 都 涉及 到 机 器 学 习 算 法 中 多 个 未 能 完全 理解 的 部 分 之 间 复 杂 的 相互 
作用 。 

第 一 个 想法 ， 即 深度 神经 网 络 初 始 参数 的 选择 对 其 性 能 具有 很 强 的 正则 化 效果 ， 
很 少 有 关于 这 个 想法 的 理解 。 在 预 训 练 变 得 流行 时 ， 在 一 个 位 置 初始 化 模型 被 认为 
会 使 其 接近 某 一 个 局 部 极 小 点 ， 而 不 是 另 一 个 局 部 极 小 点 。 如 今 ， 局 部 极 小 值 不 再 被 
认为 是 神经 网 络 优化 中 的 严重 问题 。 现 在 我 们 知道 标准 的 神经 网 络 训 练 过 程 通常 不 
会 到 达 任 何 形式 的 临界 点 。 仍 然 可 能 的 是 ， 预 训练 会 初始 化 模型 到 一 个 可 能 不 会 到 
达 的 位 置 一 一 例如 ， 某 种 区 域 ， 其 中 代价 函数 从 一 个 样本 点 到 另 一 个 样本 点 变化 很 
大 ， 而 小 批量 只 能 提供 噪声 严重 的 梯度 估计 ， 或 是 某 种 区 域 中 的 Hessian FEM ARIF 
数 是 病态 的 ,梯度 下 降 必 须 使 用 非常 小 的 步 长 。 然 而 ,我 们 很 难 准 确 判 断 监督 学 习 期 
间 预 训练 参数 的 哪些 部 分 应 该 保留 。 这 是 现代 方法 通常 同时 使 用 无 监督 学 习 和 监督 
学 习 ， 而 不 是 依 序 使 用 两 个 学 习 阶 段 的 原因 之 一 。 除 了 这 些 复杂 的 方法 可 以 让 监督 
学 习 阶 段 保持 无 监督 学 习 阶段 提取 的 信息 之 外 ， 还 有 一 种 简单 的 方法 ， 固 定 特征 提 
取 器 的 参数 ， 仅 仅 将 监督 学 习作 为 顶层 学 成 特征 的 分 类 器 。 

另 一 个 想法 有 更 好 的 理解 ， 即 学 习 算 法 可 以 使 用 无 监督 阶段 学 习 的 信息 ， 在 监 
督学 习 的 阶段 表现 得 更 好 。 其 基本 想法 是 对 于 无 监督 任务 有 用 的 一 些 特征 对 于 监督 
学 习 任 务 也 可 能 是 有 用 的 。 例 如 ， 如 果 我 们 训练 汽车 和 摩托 车 图 像 的 生成 模型 ， 它 
需要 知道 轮子 的 概念 ， 以 及 一 张 图 中 应 该 有 多 少 个 轮子 。 如 果 我 们 幸运 的 话 ， 无 监 
督 阶段 学 习 的 轮子 表示 会 适合 于 监督 学 习 。 然 而 我 们 还 未 能 从 数学 、 理 论 层面 上 证 
明 ， 因 此 并 不 总 是 能 够 预测 哪 种 任务 能 以 这 种 形式 从 无 监督 学 习 中 受益 。 这 种 方法 
的 许多 方面 高 度 依赖 于 具体 使 用 的 模型 。 例 如 ， 如 果 我 们 希望 在 预 训练 特征 的 顶层 
添加 线性 分 类 器 , 那么 (学习 到 的 ) 特征 必须 使 潜在 的 类 别 是 线性 可 分 离 的 。 这 些 性 
质 通常 会 在 无 监督 学 习 阶 段 自 然 发 生 ， 但 也 并 非 总 是 如 此 。 这 是 另 一 个 监督 和 无 监 
督学 习 同 时 训练 更 可 取 的 原因 一 一 输出 层 施加 的 约束 很 自然 地 从 一 开始 就 包括 在 内 。 
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从 无 监督 预 训练 作为 学 习 一 个 表示 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 
初始 表示 较 差 的 情况 下 更 有 效 。 一 个 重要 的 例子 是 词 艇 入 。 使 用 one-hot 向 量 表示 
的 词 并 不 具有 很 多 信息 ， 因 为 任意 两 个 不 同 的 one-hot 问 量 之 间 的 距离 (^P; L WB 
离 都 是 2) 都 是 相同 的 。 学 成 的 词 般 入 自然 会 用 它们 彼此 之 间 的 距离 来 编码 词 之 间 
的 相似 性 。 因 此 ， 无 监督 预 训练 在 处 理 单词 时 特别 有 用 。 然 而 在 处 理 图 像 时 是 不 太 
有 用 的 ， 可 能 是 因为 图 像 已 经 在 一 个 很 丰富 的 向 量 空 间 中 ， 其 中 的 距离 只 能 提供 低 
质量 的 相似 性 度量 。 

从 无 监督 预 训 练 作为 正则 化 项 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 标 
注 样本 数量 非常 小 时 很 有 帮助 。 因 为 无 监督 预 训练 添加 的 信息 来 源 于 未 标注 数据 ， 
所 以 当 未 标注 样本 的 数量 非常 大 时 ， 我 们 也 可 以 期 望 无 监督 预 训练 的 效果 最 好 。 
无 监督 预 训练 的 大 量 未 标注 样本 和 少量 标注 样本 构成 的 半 监 督学 习 的 优势 特别 明 
显 。 在 2011 年 ， 无 监督 预 训练 赢得 了 两 个 国际 迁移 学 习 比 赛 (Mesnil et al., 2011; 
Goodfellow et aL, 2011)。 在 该 情景 中 ， 目 标 任务 中 标注 样本 的 数目 很 少 〈 每 类 几 个 
到 几 十 个 )。 这 些 效果 也 出 现在 被 Paine et al. (2014) 严格 控制 的 实验 中 。 

还 可 能 涉及 到 一 些 其 他 的 因素 。 例 如 ， 当 我 们 要 学 习 的 孔 数 非常 复杂 时 ， 无 监 
督 预 训练 可 能 会 非常 有 用 。 无 监督 学 习 不 同 于 权重 衰减 这 样 的 正则 化 项 ， 它 不 偏向 
于 学 习 一 个 简单 的 函数 ， 而 是 学 习 对 无 监督 学 习 任 务 有 用 的 特征 函数 。 如 果真 实 的 
潜在 函数 是 复杂 的 ， 并且 由 输入 分 布 的 规律 塑造 ， 那 么 无 监督 学 习 更 适合 作为 正则 
化 项 。 

除了 这 些 注意 事项 外 , 我 们 现在 分 析 一 些 无 监督 预 训练 改善 性 能 的 成 功 示例 , 并 
解释 这 种 改进 发 生 的 已 知 原因 。 无 监督 预 训练 通常 用 来 改进 分 类 器 ， 并 且 从 减少 测 
试 集 误差 的 观点 来 看 是 很 有 意思 的 。 然 而 ， 无 监督 预 训练 还 有 助 于 分 类 以 外 的 任务 ， 
并 且 可 以 用 于 改进 优化 ， 而 不 仅仅 只 是 作为 正则 化 项 。 例 如 ， 它 可 以 提高 去 噪 自 编 
人 码 带 的 训练 和 测试 重 构 误 差 (Hinton and Salakhutdinov, 2006)。 

Erhan et al. (2010) 进行 了 许多 实验 来 解释 无 监督 预 训练 的 几 个 成 功 原因 。 对 训 
练 误差 和 测试 误差 的 改进 都 可 以 解释 为 ,无 监督 预 训练 将 参数 引入 到 了 其 他 方法 可 
能 探索 不 到 的 区 域 。 神 经 网 络 训 练 是 非 确定 性 的 ， 并且 每 次 运行 都 会 收敛 到 不 同 的 
困 数 。 训 练 可 以 停止 在 梯度 很 小 的 点 ; 也 可 以 提前 终止 结束 训练 ， 以 防 过 拟 合 ; 还 可 
以 停止 在 梯度 很 大 ， 但 由 于 诸如 随机 性 或 Hessian 和 矩阵 病态 条 件 等 问题 难以 找到 合 
适 下 降 方 向 的 点 。 经 过 无 监督 预 训练 的 神经 网 络 会 一 致 地 停止 在 一 片 相同 的 函数 空 
间 区 域 , 但 未 经 过 预 训练 的 神经 网 络 会 一 致 地 停 在 男 一 个 区 域 。 图 15.1 可视化 了 这 
种 现象 。 经 过 预 训练 的 网 络 到 达 的 区 域 是 较 小 的 ， 这 表明 预 训 练 减少 了 估计 过 程 的 
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方差 .这 进而 又 可 以 降低 严重 过 拟 合 的 风险 。 换 言 之 ,无 监督 预 训 练 将 神经 网 络 参 
数 初始 化 到 它们 不 易 逃 逸 的 区 域 ， 并 且 遵 循 这 种 初始 化 的 结果 更 加 一 致 ， 和 没有 这 
种 初始 化 相 比 ， 结 果 很 差 的 可 能 性 更 低 。 

Erhan et al. (2010) 也 回答 了 何 时 预 训 练 效 果 最 好 一 一 预 训练 的 网 络 越 深 , 测试 
误差 的 均值 和 方差 下 降 得 越 多 。 值 得 注意 的 是 ， 这 些 实验 是 在 训练 非常 深层 网 络 的 
现代 方法 发 明和 流行 ( 整流 线性 单元 ，Dropout 和 批 标准 化 ) 之 前 进行 的 ， 因 此 对 
于 无 监督 预 训练 与 当前 方法 的 结合 ， 我 们 所 知 甚 少 。 

一 个 重要 的 问题 是 无 监督 预 训练 是 如 何 起 到 正则 化 项 作用 的 。 一 个 假设 是 , 预 训 
练 鼓励 学 习 算 法 发 现 那些 与 生成 观察 数据 的 潜在 原因 相关 的 特征 。 这 也 是 启发 除 无 
监督 预 训练 之 外 许多 其 他 算法 的 重要 思想 ， 将 会 在 第 15.3 节 中 进一步 讨论 。 

与 无 监督 学 习 的 其 他 形式 相 比 ， 无 监督 预 训练 的 缺点 是 其 使 用 了 两 个 单独 的 训 
练 阶段 。 很 多 正则 化 技术 都 具有 一 个 优点 ， 允 许 用 户 通过 调整 单一 超 参数 的 值 来 控 
制 正 则 化 的 强度 。 无 监督 预 训练 没有 一 种 明确 的 方法 来 调整 无 监督 阶段 正则 化 的 强 
E. WE, 无 监督 预 训 练 有 许多 超 参 数 ， 但 其 效果 只 能 之 后 度量 ,通常 难以 提前 预 
测 。 当 我 们 同时 执行 无 监督 和 监督 学 习 而 不 使 用 预 训练 策略 时 , 会 有 单个 超 参数 Ca 
常 是 附加 到 无 监督 代价 的 系数 ) 控制 无 监督 目标 正则 化 监督 模型 的 强度 。 减 少 该 系 
数 ， 总 是 能 够 可 预测 地 获得 较 少 正则 化 强度 。 在 无 监督 预 训练 的 情况 下 ， 没 有 一 种 
灵活 调整 正则 化 强度 的 方式 一 要 么 监督 模型 初始 化 为 预 训练 的 参数 ， 要 么 不 是 。 

具有 两 个 单独 的 训练 阶段 的 另 一 个 缺点 是 每 个 阶段 都 具有 各 自 的 超 参 数 。 第 二 
阶段 的 性 能 通常 不 能 在 第 一 阶段 期 间 预 测 ， 因 此 在 第 一 阶段 提出 超 参 数 和 第 二 阶段 
根据 反馈 来 更 新 之 间 存 在 较 长 的 延迟 。 最 通用 的 方法 是 在 监督 阶段 使 用 验证 集 上 的 
误差 来 挑选 预 训练 阶段 的 超 参数 ， 如 Larochelle et al. (2009) 中 讨论 的 。 在 实际 中 ， 
有 些 超 参数 ， 如 预 训练 迭代 的 次 数 ， 很 方便 在 预 训练 阶段 设 定 ， 通 过 无 监督 目标 上 
使 用 提前 终止 策略 完成 。 这 个 策略 并 不 理想 ， 但 是 在 计算 上 比 使 用 监督 目标 代价 小 
得 多 。 

如 今 , 大 部 分 算法 已 经 不 使 用 无 监督 预 训练 了 , 除了 在 自然 语言 处 理 领域 中 单词 
作为 one-hot 向 量 的 自然 表示 不 能 传达 相似 性 信息 ， 并 且 有 非常 多 的 未 标注 数据 集 
可 用 。 在 这 种 情况 下 , 预 训练 的 优点 是 可 以 对 一 个 巨大 的 未 标注 集合 ( 例如 用 包含 数 
十 亿 单 词 的 语料库 ) 进行 预 训 练 ， 学习 良好 的 表示 (通常 是 单词 , 但 也 可 以 是 句子 )， 
然后 使 用 该 表示 或 精 调 它 ， 使 其 适合 于 训练 集 样 本 大 幅 减 少 的 监督 任务 。 这 种 方法 
由 Collobert and Weston (2008b), Turian et al. (2010) 和 Collobert et al. (2011a) 
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图 15.1: 在 函数 空间 ( 并非 参数 空间 ， 避 免 从 参数 向 量 到 函数 的 多 对 一 映射 ) 不 同 神经 网 络 的 学 
习 轨 迹 的 非 线 性 映射 的 可 视 化 。 不 同 网 络 采 用 不 同 的 随机 初始 化 ， 并 且 有 的 使 用 了 无 监督 预 训练 ， 
有 的 没有 。 每 个 点 对 应 着 训练 过 程 中 一 个 特定 时 间 的 神经 网 络 。 经 Erhan et al. (2010) 许可 改编 此 
图 。 函 数 空间 中 的 坐标 是 关于 每 组 输入 xz 和 它 的 一 个 输出 y 的 无 限 维 向 量 。Erhan et al. (2010) 
将 很 多 特定 z 的 y 连接 起 来 ， 线 性 投影 到 高 维 空间 中 。 然 后 他 们 使 用 Isomap (Tenenbaum et al., 
2000) 进行 进一步 的 非 线性 投影 并 投 到 二 维 空间 。 颜 色 表示 时 间 。 所 有 的 网 络 初始 化 在 上 图 的 中 心 
点 附近 ( 对 应 的 函数 区 域 在 不 多 数 输 入 上 具有 近似 均匀 分 布 的 类 别 y EREE, SAAD RG PRI 
数 向 外 移动 到 预测 得 更 好 的 点 。 当 使 用 预 训练 时 ， 训 练 会 一 致 地 收敛 到 同一 个 区 域 ， 而 不 使 用 预 
训练 时 ， 训 练 会 收银 到 另 一 个 不 重 释 的 区 域 。Isomap 试图 维持 全 局 相对 距离 (体积 因此 也 保持 不 
变 )， 因 此 使 用 预 训 练 的 模型 对 应 的 较 小 区 域 意味 着 ， 基 于 预 训练 的 估计 具有 较 小 的 方差 。 





























































































































开创 ， 至 今 仍 在 使 用 。 

基于 监督 学 习 的 深度 学 习 技 术 ， 通 过 Dropout 或 批 标准 化 来 正则 化 ， 能 够 在 很 
多 任务 上 达到 人 类 级 别 的 性 能 ， 但 仅仅 是 在 极 大 的 标注 数据 集 上 。 在 中 等 大 小 的 数 
据 集 (例如 CIFAR-10 和 MNIST， 每 个 类 大 约 有 5,000 个 标注 样本 ) 上 ， 这 些 技术 
的 效果 比 无 监督 预 训 练 更 好 。 在 极 小 的 数据 集 ， 例 如 选择 性 剪接 数据 集 ， 贝 叶 斯 方 
法 要 优 于 基于 无 监督 预 训练 的 方法 (Srivastava, 2013)。 由 于 这 些 原 因 ， 无 监督 预 训 
练 已 经 不 如 以 前 流行 。 然 而 , 无 监督 预 训练 仍然 是 深度 学 习 研 究 历史 上 的 一 个 重要 
里 程 碑 ， 并 将 继续 影响 当代 方法 。 预 训练 的 想法 已 经 推广 到 监督 预 训练 ( supervised 
pretraining )， 这 将 在 第 8.7.4 节 中 讨论 ， 在 迁移 学 习 中 这 是 非常 常用 的 方法 。 迁 移 学 
习 中 的 监督 预 训 练 流行 (Oquab et al., 2014; Yosinski et al., 2014) 于 在 ImageNet 数 
据 集 上 使 用 卷 积 网 络 预 训练 。 由 于 这 个 原因 ， 实 践 者 们 公布 了 这 些 网 络 训练 出 的 参 
数 ， 就 像 自 然 语 言 任 务 公 布 预 训练 的 单词 向 量 一 样 (Collobert et al., 2011a; Mikolov 
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et al., 2013a). 


15.2 ”迁移 学 习 和 领域 自 适应 


迁移 学 习 和 领域 自 适 应 指 的 是 利用 一 个 情景 (例如 ， 分 布 P.) 中 已 经 学 到 的 内 
容 去 改善 男 一 个 情景 ( 比如 分 布 P3) 中 的 泛 化 情况 。 这 点 概括 了 上 一 节 提 出 的 想法 ， 
即 在 无 监督 学 习 任 务 和 监督 学 习 任务 之 间 转 移 表 示 。 

在 迁移 学 习 (transfer learning) 中 ， 学 习 需 必须 执行 两 个 或 更 多 个 不 同 的 任务 ， 
但 是 我 们 假设 能 够 解释 P, 变化 的 许多 因素 和 学 习 Po 需要 抓 住 的 变化 相关 。 这 通常 
能 够 在 监督 学 习 中 解释 ， 输 入 是 相同 的 ， 但 是 输出 不 同 的 性 质 。 例 如 ， 我 们 可 能 在 
第 一 种 情景 中 学 习 了 一 组 视觉 类 别 ， 比 如 猫 和 狗 ， 然 后 在 第 二 种 情景 中 学 习 一 组 不 
同 的 视觉 类 别 ， 比 如 蚂蚁 和 黄蜂 。 如 果 第 一 种 情景 (从 已 采样 ) 中 具有 非常 多 的 数 
W, 那么 这 有 助 于 学 习 到 能 够 使 得 从 P. 抽取 的 非常 少 样本 中 快速 泛 化 的 表示 。 许 多 
视觉 类 别 共 享 一 些 低级 概念 ， 比 如 边缘 、 视 觉 形状 、 几 何 变化 、 光 照 变 化 的 影响 等 
等 。 一 般 而 言 ， 当 存在 对 不 同情 景 或 任务 有 用 特征 时 ， 并 且 这 些 特 征 对 应 多 个 情景 
出 现 的 潜在 因素 ， 迁 移 学 习 、 多 任务 学 习 (第 7.7 市 ) 和 领域 自 适应 可 以 使 用 表示 学 
习 来 实现 。 如 图 7.2 所 示 ， 这 是 具有 共享 底层 和 任务 相关 上 层 的 学 习 框 架 。 

然而 ， 有 时 不 同 任务 之 间 共 享 的 不 是 输入 的 语义 ， 而 是 输出 的 语义 。 例如， 语 
音 识别 系统 需要 在 输出 层 产 生 有 效 的 句子 ,但 是 输入 附近 的 较 低层 可 能 需要 识别 相 
同音 素 或 子音 素 发 音 的 非常 不 同 的 版 本 〈 这 取决 于 说 话 人 )。 在 这 样 的 情况 下 ， 共 享 
神经 网 络 的 上 层 (输出 附近 ) 和 进行 任务 特定 的 预 处 理 是 有 意义 的 ， 如 图 15.2 所 示 。 

在 领域 自 适应 (domain adaption ) 的 相关 情况 下 ， 在 每 个 情景 之 间 任 务 ( 和 最 
优 的 输入 到 输出 的 映射 ) 都 是 相同 的 , 但 是 输入 分 布 稍 有 不 同 。 例如， 考虑 情感 分 析 
的 任务 ,如 判断 一 条 评论 是 表达 积极 的 还 是 消极 的 情绪 。 网 上 的 评论 有 许多 类 别 。 在 
书 、 视 频 和 音乐 等 媒体 内 容 上 训练 的 顾客 评论 情感 预测 器 ， 被 用 于 分 析 诸 如 电视 机 
或 智能 电话 的 消费 电子 产品 的 评论 时 ， 领 域 自 适应 情景 可 能 会 出 现 。 可 以 想象 ， 存 
在 一 个 潜在 的 函数 可 以 判断 任何 语句 是 正面 的 、 中 性 的 还 是 负面 的 ， 但 是 词汇 和 风 \ 
格 可 能 会 因 领 域 而 有 差异 ， 使 得 跨 域 的 泛 化 训练 变 得 更 加 困难 。 简 单 的 无 监督 预 训 
练 ( 去 品 自 编码 器 ) 已 经 能 够 非常 成 功 地 用 于 领域 自 适应 的 情感 分 析 (Glorot et al., 
2011c). 


一 个 相关 的 问题 是 概念 漂移 (concept drift )， 我 们 可 以 将 其 视 为 一 种 迁移 学 习 ， 
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图 15.2: 多 任务 学 习 或 者 迁移 学 习 的 架构 示例 。 输 出 变量 y 在 所 有 的 任务 上 具有 相同 的 语义 ; 输 
入 变量 x 在 每 个 任务 (或 者 ， 比 如 每 个 用 户 ) 上 具有 不 同 的 意义 ( 甚至 可 能 具有 不 同 的 维度 ), 图 
上 三 个 任务 为 x, xO, xO, JEE ORE TAN i) 是 面向 任务 的 ， 上 层 结构 是 共享 的 。 
底层 结构 学 习 将 面向 特定 任务 的 输入 转化 为 通用 特征 。 




































































因为 数据 分 布 随 时 间 而 逐渐 变化 。 概 念 漂移 和 迁移 学 习 都 可 以 被 视 为 多 任务 学 习 的 
特定 形式 。“ 多 任务 学 习 ” 这 个 术语 通常 指 监 督学 习 任务 ， 而 更 广义 的 迁移 学 习 的 概 
念 也 适用 于 无 监督 学 习 和 强化 学 习 。 

在 所 有 这 些 情况 下 ， 我 们 的 目标 是 利用 第 一 个 情景 下 的 数据 ， 提 取 那 些 在 第 二 
种 情景 中 学 习 时 或 直接 进行 预测 时 可 能 有 用 的 信息 。 表 示 学 习 的 核心 思想 是 相同 的 
表示 可 能 在 两 种 情景 中 都 是 有 用 的 。 两 个 情景 使 用 相同 的 表示 ， 使 得 表示 可 以 受益 
于 两 个 任务 的 训练 数据 。 

如 前 所 述 ， 迁 移 学 习 中 无 监督 深度 学 习 已 经 在 一 些 机 器 学 习 比 赛 中 取得 了 成 
功 (Mesnil et al., 2011; Goodfellow et al., 2011)。 这 些 比赛 中 的 某 一 个 实验 配置 如 
下 。 首 先 每 个 参与 者 获得 一 个 第 一 种 情景 (来 自分 布 PLO 的 数据 集 ， 其 中 含有 一 些 
类 别 的 样本 。 参 与 者 必须 使 用 这 个 来 学 习 一 个 良好 的 特征 空间 (将 原始 输入 映射 到 
某 种 表示 ), 使 得 当 我 们 将 这 个 学 成 变换 用 于 来 自 迁 移 情景 (分布 Pa) 的 输入 时 , 2X 
生 分 类 器 可 以 在 很 少 标注 样本 上 训练 、 并 泛 化 得 很 好 。 这 个 比赛 中 最 引 人 注 目的 结 
果 之 一 是 ， 学 习 表示 的 网 络 架 构 越 深 ( 在 第 一 个 情景 忆 中 的 数据 使 用 纯 无 监督 方式 
学 习 ), 在 第 二 个 情景 (迁移 ) P» 的 新 类 别 上 学 习 到 的 曲线 就 越 好 。 对 于 深度 表示 而 
言 ， 迁 移 任务 只 需要 少量 标注 样本 就 能 显著 地 提升 泛 化 性 能 。 
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迁移 学 习 的 两 种 极端 形式 是 一 次 学 习 ( one-shot learning ) 和 零 次 学 习 ( zero- 
shot learning )， 有 时 也 被 称 为 零 数据 学 习 ( zero-data learning )。 只 有 一 个 标注 样本 
的 迁移 任务 被 称 为 一 次 学 习 ; 没有 标注 样本 的 迁移 任务 被 称 为 零 次 学 习 。 

为 第 一 阶段 学 习 出 的 表示 就 可 以 清楚 地 分 离 出 潜在 的 类 别 ， 所 以 一 次 学 
习 (Fei-Fei et al., 2006) 是 可 能 的 。 在 迁移 学 习 阶 段 ， 仪 需要 一 个 标注 样本 来 推断 表 
示 空 间 中 到 集 在 相同 点 周围 许多 可 能 测试 样本 的 标签 。 这 使 得 在 学 成 的 表示 空间 中 ， 
对 应 于 不 变性 的 变化 因子 已 经 与 其 他 因子 完全 分 离 ， 在 区 分 某 些 类 别 的 对 象 时 ， 我 
们 可 以 学 习 到 哪些 因素 具有 决定 意义 。 

考虑 一 个 零 次 学 习 情 景 的 例子 ， 学 习 央 已 经 读 取 了 大 量 文本 ， 然 后 要 解决 对 象 
识别 的 问题 。 如 果 文 本 足够 好 地 描述 了 对 象 ， 那 么 即使 没有 看 到 某 对 和 象 的 图 像 ， 也 
能 识别 出 该 对 象 的 类 别 。 例 如 ,已 知 猫 有 四 条 腿 和 人 尖 尖 的 耳 打 ， 那 么 学 习 器 可 以 在 
没有 见 过 猫 的 情况 下 猜测 该 图 像 中 是 猫 。 

只 有 在 训练 时 使 用 了 额外 信息 ， 零 数据 学 习 (Larochelle et al., 2008) 和 零 次 学 
2] (Palatucci et al., 2009; Socher et al., 2013b) 才 是 有 可 能 的 。 我 们 可 以 认为 零 数据 
学 习 场 景 包含 三 个 随机 变量 : 传统 输入 z， 传 统 输出 或 目标 y， 以 及 描述 任务 的 附 
加 随机 变量 TT。 该 模型 被 训练 来 估计 条 件 分 布 p(y | T), HP T 是 我 们 希望 执行 
的 任务 的 描述 。 在 我 们 的 例子 中 ， 读 取 猫 的 文本 信息 然后 识别 猫 ， 输 出 是 二 元 变量 
Y, y=1 表示 “是 ”, y = 0 表示 “不 是 ”。 任 务 变 量 T 表示 要 回答 的 问题 ， 例 如 “这 
个 图 像 中 是 否 有 猫 ? ny f e A T 在 相同 空间 的 无 监督 对 象 样本 ,我 们 也 
许 能 够 推断 未 知 的 全 实例 的 含义 。 在 我 们 的 例子 中 ， 没 有 提前 看 到 猫 的 图 像 而 去 识 
别 猫 ， 所 以 拥有 一 些 未 标注 文本 数据 包含 句子 诸如 “ 猫 有 四 条 腿 ” 或 “ 猫 有 尖 耳 洒 ”， 
对 于 学 习 非 常 有 帮助 。 

零 次 学 习 要 求 T 被 表示 为 某 种 形式 的 泛 化 。 例 如 ,7 不 能 仅 是 指示 对 象 类 别 
的 one-hot 编 码 。 通 过 使 用 每 个 类 别 词 的 词 艇 入 表示 ，Socher et al. (2013b) 提出 了 对 
象 类 别 的 分 布 式 表示 。 

我 们 还 可 以 在 机 需 翻 译 中 发 现 一 种 类 似 的 现象 (Klementiev et al., 2012; Mikolov 
et al., 2013b; Gouws et al., 2014): 我 们 已 经 知道 一 种 语言 中 的 单词 ， 还 可 以 学 到 单 
一 语言 语料库 中 词 与 词 之 间 的 关系 ; 另 一 方面 ， 我 们 已 经 翻译 了 一 种 语言 中 的 单词 
与 男 一 种 语言 中 的 单词 相关 的 句子 。 即 使 我 们 可 能 没有 将 语言 X 中 的 单词 A 翻译 
成 语言 Y 中 的 单词 B 的 标注 样本 ， 我 们 也 可 以 泛 化 并 猜 出 单词 4 的 翻译 ， 这 是 由 
于 我 们 已 经 学 习 了 语言 X MY 单词 的 分 布 式 表 示 ， 并 且 通 过 两 种 语言 句子 的 匹配 
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对 组 成 的 训练 样本 ， 产 生 了 关联 于 两 个 空间 的 链接 ( 可 能 是 双向 的 )。 如 果 联 合 学 习 
三 种 成 分 ( 两 种 表示 形式 和 它们 之 间 的 关系 )， 那 么 这 种 迁移 将 会 非常 成 功 。 

零 次 学 习 是 迁移 学 习 的 一 种 特殊 形式 。 同 样 的 原理 可 以 解释 如 何 能 执行 多 模 
态 学 习 (multimodal learning )， 学 习 两 种 模 态 的 表示 ， 和 一 种 模 态 中 的 观察 结果 a 
与 另 一 种 模 态 中 的 观察 结果 y 组 成 的 对 (zx, y) 之 间 的 关系 〈 通 常 是 一 个 联合 分 布 ) 
(Srivastava and Salakhutdinov, 2012)。 通 过 学 习 所 有 的 三 组 参数 (从 x 到 它 的 表示 、 
从 y 到 它 的 表示 ， 以 及 两 个 表示 之 间 的 关系 ), 一 个 表示 中 的 概念 被 销 定 在 男 一 个 表 
示 中 ， 反 之 亦 然 ， 从 而 可 以 有 效 地 推广 到 新 的 对 组 。 这 个 过 程 如 图 15.3 所 示 。 
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图 15.3: 两 个 域 zx 和 y 之 间 的 迁移 学 习 能 够 进行 零 次 学 习 。 标 注 或 未 标注 样本 z "I YRR K 
数 fao MEEI, PÉR y 也 可 以 学 习 表示 函数 fy LAP fo 和 fy 旁 都 有 一 个 向 上 的 箭头 ， 不 同 
的 箭头 表示 不 同 的 作用 函数 。 并 且 箭 头 的 类 型 表示 使 用 了 哪 一 种 函数 。 因 空间 中 的 相似 性 度量 表 
示 x 空间 中 任意 点 对 之 间 的 距离 ， 这 种 度量 方式 比 直接 度量 z 空间 的 距离 更 好 。 同 样 地 ，j 空间 
中 的 相似 性 度量 表示 y 室 间 中 任意 点 对 之 间 的 距离 。 这 两 种 相似 函数 都 使 用 带 点 的 双向 箭头 表示 。 
标注 样本 ( 水平 虚线 ) (x, y) 能 够 学 习 表 示 fele) 和 表示 fy(y) 之 间 的 单 向 或 双向 映射 ( 实 双 向 箭 
头 )， 以 及 这 些 表示 之 间 如 何 锚 定 。 零 数据 学 习 可 以 通过 以 下 方法 实现 。 像 ziest 可 以 和 单词 Yost 
关联 起 来 ， 即 使 该 单词 没有 像 ， 仅 仅 是 因为 单词 表示 f(yiost) 和 像 表 示 f(ztest) 可 以 通过 表示 空 
间 的 映射 彼此 关联 。 这 种 方法 有 效 的 原因 是 ， 尽 管 像 和 单词 没有 匹配 成 队 ， 但 是 它们 各 自 的 特征 
向 量 f(ztest) 和 方 (w%。s) 互相 关联 。 上 图 受 Hrant Khachatrian 的 建议 启发 。 

























































































15.3 “ 半 监 督 解释 因果 关系 


表示 学 习 的 一 个 重要 问题 是 “什么 原因 能 够 使 一 个 表示 比 另 一 个 表示 更 好 ? ”一 
种 假设 是 ， 理 想 表示 中 的 特征 对 应 到 观测 数据 的 潜在 成 因 ， 特 征 空间 中 不 同 的 特征 
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或 方向 对 应 着 不 同 的 原因 ， 从 而 表示 能 够 区 分 这 些 原 因 。 这 个 假设 促使 我 们 去 寻找 
表示 p(x) 的 更 好 方法 。 如 果 y 是 z 的 重要 成 因 之 一 ， 那 么 这 种 表示 也 可 能 是 计算 
ply | x) 的 一 种 良好 表示 。 从 20 世纪 90 年 代 以 来 ， 这 个 想法 已 经 指导 了 大 量 的 深度 
学 习 人 研究 工作 (Becker and Hinton, 1992; Hinton and Sejnowski, 1999)。 关 于 半 监 督 
学 习 可 以 超过 纯 监 督学 习 的 其 他 论点 ， 请 读者 参考 Chapelle et al. (2006b) 的 第 1.2 
Ho 











在 表示 学 习 的 其 他 方法 中 ， 我 们 大 多 关注 易于 建 模 的 表示 PiU, BRA ih 
或 是 各 项 之 间 相 互 独 立 的 情况 。 能 够 清楚 地 分 离 出 潜在 因素 的 表示 可 能 并 不 一 定 易 
于 建 模 。 然而, 该 假设 促使 半 监 督学 习 使 用 无 监督 表示 学 习 的 一 个 更 深层 原因 是 , 对 
于 很 多 人 工 智能 任务 而 言 ， 有 两 个 相 随 的 特点 : 一 旦 我 们 能 够 获得 观察 结果 基本 成 
因 的 解释 ， 那 么 将 会 很 容易 分 离 出 个 体 属性 。 具 体 来 说 ， 如 果 表 示 向 量 h 表示 观察 
E z 的 很 多 潜在 因素 ， 并 且 输 出 向 量 y 是 最 为 重要 的 原因 之 一 , 那么 从 hh 预测 y 会 
很 容易 。 

首先 ， 让 我 们 看 看 p(x) 的 无 监督 学 习 无 助 于 学 习 p(y | x) 时 ， 半 监督 学 习 为 何 
失败 。 例 如 , 考虑 一 种 情况 ，p(x) 是 均匀 分 布 的 ， 我们 希望 学 习 f(x) = Ely | al. t 
然 ， 仅 仅 观 察 训练 集 的 值 z 不 能 给 我 们 关于 ply | x) 的 任何 信息 。 

接 下 来 ， 让 我 们 看 看 半 监 督学 习 成 功 的 一 个 简单 例子 。 考 虑 这 样 的 情况 ,，x 来 
自 一 个 混合 分 布 ， 每 个 y 值 具有 一 个 混合 分 量 ， 如 图 15.4 所 示 。 如 果 混 合 分 量 很 好 
WERKT, MAE p(x) 可 以 精确 地 指出 每 个 分 量 的 位 置 ， 每 个 类 一 个 标注 样本 
的 训练 集 足 以 精确 学 习 p(y | x)。 但 是 更 一 般 地 ， 什 么 能 将 p(y | x) 和 p(x) 关联 在 
一 起 呢 ? 

WR y 与 x 的 成 因 之 一 非常 相关 ， 那 么 p(x) 和 p(y | x) 也 会 紧密 关联 ， 试 图 
找到 变化 潜在 因素 的 无 监督 表示 学 习 可 能 像 半 监 督学 习 一 样 有 用 。 

假设 y 是 x 的 成 因 之 一 , 让 h 代表 所 有 这 些 成 因 。 真 实 的 生成 过 程 可 以 被 认为 
是 根据 这 个 有 向 图 模型 结构 化 出 来 的 ， 其 中 h 是 x 的 父 节 点 : 





























p(h, x) = p(x | h)p(h). (15.1) 


因此 ， 数 据 的 边缘 概率 是 











p(z) = Enp(z | h). (15.2) 


从 这 个 直观 的 观察 中 , 我 们 得 出 结论 , x 最 好 可 能 的 模型 ( 从 广义 的 观点 ) 是 会 表示 
上 述 “ 真 实 ”结构 的 ， 其 中 h 作为 潜 变 量 解释 z 中 可 观察 的 变化 。 上 文 讨论 的 “ 理 
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p(x) 











图 15.4: 混合 模型 。 具 有 三 个 混合 分 量 的 x 上 混合 密度 示例 。 混 合 分 量 的 内 在 本 质 是 潜在 解释 因 
子 y。 因 为 混合 分 量 〈 例 如 ， 图 像 数据 中 的 自然 对 象 类 别 ) 在 统计 学 上 是 显著 的 ， 所 以 仅仅 使 用 未 
标注 样本 无 监督 建 模 p(x) 也 能 揭示 解释 因子 y。 


























想 ” 的 表示 学 习 应 该 能 够 反映 出 这 些 潜在 因子 。 如 果 y 是 其 中 之 一 (或 是 紧密 关联 
于 其 中 之 一 )， 那 么 将 很 容易 从 这 种 表示 中 预测 y。 我 们 会 看 到 给 定 x 下 y 的 条 件 
分 布 通过 贝 叶 斯 规则 关联 到 上 式 中 的 分 量 : 
p(x | y)p(y) 

px) -— 
因此 边缘 概率 p(x) 和 条 件 概率 p(y | x) 密切 相关 ， 前 者 的 结构 信息 应 该 有 助 于 学 习 
后 者 。 因 此 ， 在 这 些 假设 情况 下 ， 半 监督 学 习 应 该 能 提高 性 能 。 

关于 这 个 事实 的 一 个 重要 的 研究 问题 是 ， 大 多 数 观 察 是 由 极其 大 量 的 潜在 成 
因 形成 的 。 假设 y = h, 但 是 无 监督 学 习 器 并 不 知道 是 哪 一 个 h;。 对 于 一 个 无 监 
督学 习 器 暴力 求解 就 是 学 习 一 种 表示 ， 这 种 表示 能 够 捕获 所 有 合理 的 重要 生成 因子 
h;， 并 将 它们 彼此 区 分 开 来 ， 因 此 不 管 h; 是 否 关联 于 y, M h 预测 y 都 是 容易 的 。 

在 实践 中 ， 暴 力求 解 是 不 可 行 的 ， 因 为 不 可 能 捕获 影响 观察 的 所 有 或 大 多 数 变 
化 因素 。 例 如 , 在 视觉 场景 中 ,表示 是 否 应 该 对 背景 中 的 所 有 最 小 对 象 进行 编码 ? 根 
据 一 个 有 据 可 查 的 心理 学 现象 ， 人 们 不 会 察觉 到 环境 中 和 他 们 所 在 进行 的 任务 并 不 
立刻 相关 的 变化 ， 具 体例 子 可 以 参考 Simons and Levin (1998)。 半 监督 学 习 的 一 个 
重要 研究 前 沿 是 确定 每 种 情况 下 要 编码 什么 。 目 前 ， 处 理 大 量 潜在 原因 的 两 个 主要 
策略 是 ， 同 时 使 用 无 监督 学 习 和 监督 学 习 信号 ， 从 而 使 得 模型 捕获 最 相关 的 变动 因 
R, 或 是 使 用 纯 无 监督 学 习 学 习 更 大 规模 的 表示 。 





p(y | x) = (15.3) 
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无 监督 学 习 的 另 一 个 思路 是 选择 一 个 更 好 的 确定 哪些 潜在 因素 最 为 关键 的 定义 。 
之 前 ， 自 编码 器 和 生成 模型 被 训练 来 优化 一 个 类 似 于 均 方 误差 的 固定 标准 。 这 些 固 
定 标 准确 定 了 哪些 因素 是 重要 的 。 例 如 ， 图像 像素 的 均 方 误差 隐 式 地 指定 ， 一 个 潜 
在 因素 只 有 在 其 显著 地 改变 大 量 像素 的 亮度 时 ， 才 是 重要 影响 因素 。 如 果 我 们 希望 
解决 的 问题 涉及 到 小 对 象 之 间 的 相互 作用 ， 那 么 这 将 有 可 能 遇 到 问题 。 如 图 15.5 所 
AN, 在 机 器 人 任务 中 ， 自 编码 带 未 能 学 习 到 编码 小 乒乓 球 。 同样 是 这 个 机 融 人 , 它 可 
以 成 功 地 与 更 大 的 对 象 进行 交互 ( 例如 棒球 ， 均 方 误差 在 这 种 情况 下 很 显著 )。 


输入 重 构 





图 15.5: 机 器 人 任务 上 ， 基 于 均 方 误差 训练 的 自 编码 器 不 能 重 构 乒 乓 球 。 乒 乓 球 的 存在 及 其 所 有 空 
间 坐 标 ， 是 生成 图 像 且 与 机 器 人 任务 相关 的 重要 潜在 因素 。 不 笠 的 是 ， 自 编码 器 具有 有 限 的 容量 ， 
基于 均 方 误差 的 训练 没 能 将 乒乓 球 作为 显著 物体 识别 出 来 编码 。 以 上 图 像 由 Chelsea Finn 提供 。 
































还 有 一 些 其 他 的 显著 性 的 定义 。 例 如， 如 果 一 组 像素 具有 高 度 可 识别 的 模式 ， 那 
么 即使 该 模式 不 涉及 到 极端 的 亮度 或 暗 度 ， 该 模式 还 是 会 被 认为 非常 显著。 实现 这 
样 一 种 定义 显著 的 方法 是 使 用 最 近 提 出 的 生成 式 对 抗 网 络 ( generative adversarial 
network ) (Goodfellow et al., 2014c)。 在 这 种 方法 中 ， 生 成 模型 被 训练 来 愚弄 前 馈 分 
类 右 。 前 馈 分 类 融 尝 试 将 来 自生 成 模型 的 所 有 样本 识别 为 假 的 ， 并 将 来 自 训 练 集 的 
所 有 样本 识别 为 真 的 。 在 这 个 框架 中 ， 前 馈 网 络 能 够 识别 出 的 任何 结构 化 模式 都 是 
非常 显著 的 。 生 成 式 对 抗 网 络 会 在 第 20.10.4 节 中 更 详细 地 介绍 。 为 了 叙述 方便 ， 知 
道 它 能 学 习 出 如 何 决定 什么 是 显著 的 就 可 以 了 。Lotter et al. (2015) 表明 ， 生 成 人 类 
头 部 头像 的 模型 在 使 用 均 方 误差 训练 时 往往 会 忽视 耳 杀 ， 但 是 对 抗 式 框架 学 习 能 够 
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成 功 地 生成 耳 条 。 因 为 耳 休 与 周围 的 皮肤 相 比 不 是 非常 明亮 或 黑暗 ， 所 以 根据 均 方 
误差 损失 它们 不 是 特别 突出 ,但 是 它们 高 度 可 识别 的 形状 和 一 致 的 位 置 意 味 着 前 馈 
网 络 能 够 轻易 地 学 习 出 如 何 检 测 它们 ， 从 而 使 得 它们 在 生成 式 对 抗 框架 下 是 高 度 突 
出 的 。 图 15.6 给 了 一 些 样 例 图 片 。 生 成 式 对 抗 网 络 只 是 确定 应 该 表示 哪些 因素 的 一 
小 步 。 我 们 期 望 未 来 的 研究 能 够 发 现 更 好 的 方式 来 确定 表示 哪些 因素 , 并且 根据 任 
务 来 开发 表示 不 同 因素 的 机 制 。 


真实 图 MSE 对 抗 学 习 





15.6: 预测 生成 网 络 是 一 个 学 习 哪 些 特征 显著 的 例子 。 在 这 个 例子 中 ,预测 生成 网 络 已 被 训练 成 
在 特定 视角 预测 人 头 的 3D 模型 。( 左 ) 真实 情况 。 这 是 一 张 网 络 应 该 生成 的 正确 图 片 。( 中 ) 由 具 
有 均 方 误差 的 预测 生成 网 络 生成 的 图 片 。 因 为 与 相 邻 皮肤 相 比 ， 耳 杂 不 会 引起 亮度 的 极 大 差异 ， 所 
以 它们 的 显著 性 不 足以 让 模型 学 习 表 示 它 们 。( 右 ) 由 具有 均 方 误差 和 对 抗 损失 的 模型 生成 的 图 片 。 
使 用 这 个 学 成 的 代价 函数 ， 由 于 耳 条 遵循 可 预测 的 模式 ， 因 此 耳 朱 是 显著 重要 的 。 学 习 哪 些 原因 
对 于 模型 而 言 是 足够 重要 和 相关 的 , 是 一 个 重要 的 活跃 研究 领域 。 以 上 图 片 由 Lotter et al. (2015) 
提供 。 














正如 Schólkopf et al. (2012) 指出 ， 学 习 湾 在 因素 的 好 处 是 ， 如 果真 实 的 生成 过 
程 中 x 是 结果 ，y 是 原因 ， 那 么 建 模 p(x |y) 对 于 py) 的 变化 是 鲁 棒 的 。 如 果 因 果 
关系 被 逆转 ， 这 是 不 对 的 ， 因 为 根据 贝 叶 斯 规则 ，p(x | y) 将 会 对 ply) 的 变化 十 分 
敏感 。 很 多 时 候 ， 我 们 考虑 分 布 的 变化 ( 由 于 不 同 领域 、 时 间 不 稳定 性 或 任务 性 质 
的 变化 ) 时 ， 因 果 机 制 是 保持 不 交 的 (“宇宙 定律 不 变 ”)， 而 潜在 因素 的 边缘 分 布 是 
会 变化 的 。 因 此 ， 通 过 学 习 试 图 恢复 成 因 向 量 h 和 p(x | h) 的 生成 模型 ， 我 们 可 以 
期 望 最 后 的 模型 对 所 有 种 类 的 变化 有 更 好 的 泛 化 和 和 鲁 棒 性 。 
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15.4 ”分 布 式 表示 


分 布 式 表 示 的 概念 ( 由 很 多 元 素 组 合 的 表示 ， 这 些 元 素 之 间 可 以 设置 成 可 分 离 
的 ) 是 表示 学 习 最 重要 的 工具 之 一 。 分 布 式 表 示 非 常 强 大 ， 因 为 他 们 能 用 具有 个 
值 的 ”个 特征 去 描述 Kk" 个 不 同 的 概念 。 正 如 我 们 在 本 书 中 看 到 的 , 具有 多 个 隐藏 单 
元 的 神经 网 络 和 具有 多 个 潜 变 量 的 概率 模型 都 利用 了 分 布 式 表示 的 策略 。 我 们 现在 
再 介绍 一 个 观察 结果 。 许 多 深度 学 习 算法 基于 的 假设 是 ， 隐 藏 单 元 能 够 学 习 表 示 出 
解释 数据 的 潜在 因果 因子 ， 就 像 第 15.3 节 中 讨论 的 一 样 。 这 种 方法 在 分 布 式 表示 上 
是 自然 的 ， 因 为 表示 空间 中 的 每 个 方向 都 对 应 着 一 个 不 同 的 潜在 配置 变量 的 值 。 

n 维 二 元 向 量 是 一 个 分 布 式 表示 的 示例 ， 有 2” 种 配置 ， 每 一 种 都 对 应 输入 空间 
中 的 一 个 不 同 区 域 ， 如 图 15.7 所 示 。 这 可 以 与 符号 表示 相 比 较 ， 其 中 输入 关联 到 单 
一 符号 或 类 别 。 如 果 字 典 中 有 n MES, 那么 可 以 想象 有 元 个 特征 监测 器 ， 每 个 
特征 探测 融 监 测 相关 类 别 的 存在 。 在 这 种 情况 下 ， 只 有 表示 空间 中 n 个 不 同 配置 才 
有 可 能 在 输入 空间 中 刻画 n 个 不 同 的 区 域 ， 如 图 15.8 所 示 。 这 样 的 符号 表示 也 被 称 
为 one-hot 表示 ， 因 为 它 可 以 表示 成 相互 排斥 的 n 维 二 元 向 量 (其 中 只 有 一 位 是 激 
活 的 )。 符 号 表示 是 更 广泛 的 非 分 布 式 表示 类 中 的 一 个 具体 示例 ， 它 可 以 包含 很 多 条 
目 ， 但 是 每 个 条 目 没 有 显著 意义 的 单独 控制 作用 。 

以 下 是 基于 非 分 布 式 表示 的 学 习 算 法 的 示例 : 























e RETIA, WA k-means 算法 : 每 个 输入 点 恰好 分 配 到 一 个 类 别 。 


。 上 -最 近邻 算法 : 给 定 一 个 输入 , 一 个 或 几 个 模板 或 原型 样本 与 之 关联 。 在 大 > 1 
的 情况 下 ， 每 个 输入 都 使 用 多 个 值 来 描述 ， 但 是 它们 不 能 彼此 分 开 控制 ， 因 此 
这 不 能 算 真正 的 分 布 式 表示 。 


e 决策 树 : 给 定 输入 时 ， 只 有 一 个 叶 节 点 (和 从 根 到 该 叶 节 点 路 径 上 的 点 ) 是 被 
激活 的 。 

e 高 斯 混合 体 和 专家 混合 体 : 模板 ( 聚 类 中 心 ) 或 专家 关联 一 个 激活 的 程度 。 和 
-最 近邻 算法 一 样 ， 每 个 输入 用 多 个 值 表示 ,但 是 这 些 值 不 能 轻易 地 彼此 分 开 
控制 。 





。 具 有 高 斯 核 (或 其 他 类 似 的 局 部 核 ) 的 核 机 器 : 尽管 每 个 “支持 向 量 ” 或 模板 
样本 的 激活 程度 是 连续 值 ， 但 仍然 会 出 现 和 高 斯 混合 体 相同 的 问题 。 
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h2 hs 


h = [1,0,0]" 





h = [0,1,0]" h = [0,1,1]" h = [0,0,1]" 











图 15.7: 基于 分 布 式 表示 的 学 习 算 法 如 何 将 输入 空间 分 割 成 多 个 区 域 的 图 示 。 这 个 例子 具有 二 元 
变量 hi1，h2，hs。 每 个 特征 通过 为 学 成 的 线性 变换 设 定 输出 阀 值 而 定义 。 每 个 特征 将 R? 分 成 
个 半 平 面 。 令 hi 表示 输入 点 hi = 1 的 集合 ; hy 表示 输入 点 hi = 0 的 集合 。 在 这 个 图 示 中 ， 
条 线 代表 着 一 个 hi 的 决策 边界 ， 对 应 的 箭头 指向 边界 的 hl 区 域 。 整 个 表示 在 这 些 半 平面 的 每 个 
相交 区 域 都 指定 一 个 唯一 值 。 例 如 ， 表 示 值 为 [1, 1,1]” 对 应 着 区 域 ht Nn hi Nn hz。 可 以 将 以 上 表 
示 和 图 15.8 中 的 非 分 布 式 表 示 进 行 比较 。 在 输入 维度 是 d 的 一 般 情 况 下 ， 分 布 式 表示 通过 半空 间 
( 而 不 是 半 平 面 ) 的 交叉 分 割 R^. RA n 个 特征 的 分 布 式 表示 给 O(n^) 个 不 同 区 域 分 配 唯一 的 编 
码 ， 而 具有 mn 个 样本 的 最 近邻 算法 只 能 给 m 个 不 同 区 域 分 配 唯 一 的 编码 。 因 此 ， 分 布 式 表示 能 够 
比 非 分 布 式 表 示 多 分 配 指数 级 的 区 域 。 注 意 并 非 所 有 的 h 值 都 是 可 取 的 ( 这 个 例子 中 没有 h= 0), 
在 分 布 式 表 示 上 的 线性 分 类 器 不 能 向 每 个 相 邻 区 域 分 配 不 同 的 类 别 标识 ; 甚至 深度 线性 阀 值 网 络 
的 VORA O(wlog w) (其 中 w 是 权重 数目 (Sontag, 1998)。 强 表示 层 和 弱 分 类 带 层 的 组 合 
是 一 个 强 正 则 化 项 。 试 图 学 习 “ 人 ”和 “ 非 人 ”概念 的 分 类 器 不 需要 给 表示 为 “ 戴 眼 镜 的 女人 ”和 
“没有 戴 眼 镜 的 男人 ”的 输入 分 配 不 同 的 类 别 。 容 量 限 制 鼓 励 每 个 分 类 器 关注 少数 几 个 hi, 鼓励 h 
以 线性 可 分 的 方式 学 习 表 示 这 些 类 别 。 
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e 基于 n-gram 的 语言 或 翻译 模型 : 根据 后 级 的 树 结构 划 分 上 下 文集 合 (符号 序 
Jj. 例如， 一 个 叶 节 点 可 能 对 应 于 最 后 两 个 单词 wi 和 wz。 树 上 的 每 个 叶 节 
点 分 别 估计 单独 的 参数 ( 有 些 共享 也 是 可 能 的 )。 


对 于 部 分 非 分 布 式 算法 而 言 ， 有 些 输出 并 非 是 恒定 的 ， 而 是 在 相 邻 区 域 之 间 内 
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图 15.8: 最 近邻 算法 如 何 将 输入 空间 分 成 不 同 区 域 的 图 示 。 最 近邻 算法 是 一 个 基于 非 分 布 式 表 示 的 
学 习 算 法 的 示例 。 不 同 的 非 分 布 式 算法 可 以 具有 不 同 的 几何 形状 ， 但 是 它们 通常 将 输入 空间 分 成 
区 域 ,每 个 区 域 具有 不 同 的 参数 。 非 分 布 式 方法 的 优点 是 ,给 定 足 够 的 参数 ， 它 能 够 拟 合 一 个 训练 
集 ， 而 不 需要 复杂 的 优化 算法 。 因 为 它 直接 为 每 个 区 域 独 立地 设置 不 同 的 参数 。 缺 点 是 ， 非 分 布 式 
表示 的 模型 只 能 通过 平滑 先 验 来 局 部 地 泛 化 ， 因 此 学 习 波 峰 波 谷 多 于 样本 的 复杂 函数 时 ， 该 方法 
是 不 可 行 的 。 和 分 布 式 表示 的 对 比 ， 可 以 参照 图 15.7 。 













































































ffi, BBC (或 样本 ) 的 数量 和 它们 能 够 定义 区 域 的 数量 之 间 仍 保持 线性 关系 。 

将 分 布 式 表示 和 符号 表示 区 分 开 来 的 一 个 重要 概念 是 ， 由 不 同 概念 之 间 的 共享 
属性 而 产生 的 泛 化 。 作 为 纯 符号 ,，“ 猫 * 和 “ 狗 ” 之 间 的 距离 和 任意 其 他 两 种 符号 的 
距离 一 样 。 然 而 ， 如 果 将 它们 与 有 意义 的 分 布 式 表示 相关 联 ， 那 么 关于 猫 的 很 多 特 
点 可 以 推广 到 狗 ， 反 之 亦 然 。 例 如 ， 我 们 的 分 布 式 表示 可 能 会 包含 诸如 “具有 皮毛 ” 
或 “ 腿 的 数目 ”这 类 在 “ 猫 ” 和 “ 狗 ” 的 嵌入 上 具有 相同 值 的 项 。 正 如 第 12.4.2 节 所 
讨论 的 ， 作 用 于 单词 分 布 式 表示 的 神经 语言 模型 比 其 他 直接 对 单词 one-hot 表示 进 
行 操作 的 模型 泛 化 得 更 好 。 分 布 式 表 示 具 有 丰富 的 相似 性 空间 ， 语 义 上 相近 的 概念 
(或 输入 ) 在 距离 上 接近 ， 这 是 纯粹 的 符号 表示 所 缺少 的 特点 。 

在 学 习 算 法 中 使 用 分 布 式 表 示 何 时 以 及 为 什么 具有 统计 优势 ” 当 一 个 明显 复杂 
的 结构 可 以 用 较 少 参数 紧 致 地 表示 时 , 分 布 式 表 示 具 有 统计 上 的 优点 。 一 些 传统 的 非 
分 布 式 学 习 算 法 仅仅 在 平滑 假设 的 情况 下 能 够 泛 化 ， 也 就 是 说 如 果 vs v, 那么 学 习 
到 的 目标 函数 f 通常 具有 f(u) e f(v) 的 性 质 。 有 许多 方法 来 形式 化 这 样 一 个 假设 ， 
但 其 结果 是 如 果 我 们 有 一 个 样本 (x,y), FERMIÉ f(x) e y, 那么 我 们 可 以 选取 
一 个 估计 f 近似 地 满足 这 些 限制 ,并且 当 我 们 移动 到 附近 的 输入 x 十 e mp. f 尽 可 能 
少 地 发 生 改变 。 显 然 这 个 假设 是 非常 有 用 的 ， 但 是 它 会 遭受 维 数 灾 难 : 学 习 出 一 个 
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能 够 在 很 多 不 同 区 域 上 增加 或 减少 很 多 次 的 目标 函数 !, 我 们 可 能 需要 至 少 和 可 区 分 
区 域 数量 一 样 多 的 样本 。 我 们 可 以 将 每 一 个 区 域 视 为 一 个 类 别 或 符号 : 通过 让 每 个 
符号 (或 区 域 ) 具有 单独 的 自由 度 ， 我 们 可 以 学 习 出 从 符号 映射 到 值 的 任意 解码 器 。 
然而 ， 这 不 能 推广 到 新 区 域 的 新 符号 上 。 

如 果 我 们 幸运 的 话 ， 除 了 平滑 之 外 ,目标 函 数 可 能 还 有 一 些 其 他 规律 。 例 如 ,有 具 
有 最 大 池 化 的 卷 积 网 络 可 以 在 不 考虑 对 象 在 图 像 中 位 置 ( 即使 对 象 的 空间 变换 不 对 
应 输入 空间 的 平滑 变换 ) 的 情况 下 识别 出 对 象 。 

让 我 们 检查 分 布 式 表 示 学 习 算法 的 一 个 特殊 情况 ， 它 通过 对 输入 的 线性 函数 进 
行 阀 值 处 理 来 提取 二 元 特征 。 该 表示 中 的 每 个 二 元 特征 将 及 ”分 成 一 对 半空 间 ， 如 
图 15.7 所 示 。n 个 相应 半空 间 的 指数 级 数量 的 交集 确定 了 该 分 布 式 表示 学 习 带 能 够 
区 分 多 少 区 域 。 空 间 R4 中 的 n 个 超 平面 的 排列 组 合 能 够 生成 多 少 区 间 ? 通过 应 用 
关于 超 平面 交集 的 一 般 结 果 (Zaslavsky, 1975)， 我 们 发 现 (Pascanu et al., 2014b) 这 
个 二 元 特征 表示 能 够 区 分 的 空间 数量 是 


3 C) = O(n?). (15.4) 
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因此 ， 我 们 会 发 现 关 于 输入 大 小 呈 指 数 级 增长 ， 关 于 隐藏 单元 的 数量 呈 多 项 式 级 增 
长 。 

这 提供 了 分 布 式 表 示 泛 化 能 力 的 一 种 几何 解释 : O(nd) 个 参数 ( 空间 R^ PAY n 
个 线性 阀 值 特征 ) 能 够 明确 表示 输入 空间 中 On) 个 不 同 区 域 。 如 果 我 们 没有 对 数 
据 做 任何 假设 ， 并 且 每 个 区 域 使 用 唯一 的 符号 来 表示 ， 每 个 符号 使 用 单独 的 参数 去 
识别 RY 中 的 对 应 区 域 ， 那 么 指定 O(n?) 个 区 域 需要 O(n*) 个 样本 。 更 一 般 地 ， 分 
布 式 表 示 的 优势 还 可 以 体现 在 我 们 对 分 布 式 表示 中 的 每 个 特征 使 用 非 线性 的 、 可 能 
连续 的 特征 提取 融 ， 而 不 是 线性 阀 值 单 元 的 情况 。 在 这 种 情况 下 ， 如 果 具 及 个 参 
数 的 参数 变换 可 以 学 习 输 入 空间 中 的 7 个 区 域 Ck 之 7)， 并 且 如 果 学 习 这 样 的 表示 
有 助 于 关注 的 任务 那么 这 种 方式 会 比 非 分 布 式 情景 ( 我们 需要 O(r) 个 样本 来 获得 
相同 的 特征 ， 将 输入 空间 相关 联 地 划分 成 7 个 区 域 。) 泛 化 得 更 好 。 使 用 较 少 的 参数 
来 表示 模型 意味 着 我 们 只 需 拟 合 较 少 的 参数 ， 因 此 只 需要 更 少 的 训练 样本 去 获得 良 
好 的 泛 化 。 

男 一 个 解释 基于 分 布 式 表示 的 模型 泛 化 能 力 更 好 的 说 法 是 ， 尺 管 能 够 明确 地 编 


:一般 来 说 ， 我 们 可 能 会 想 要 学 习 一 个 函数 ， 这 个 函数 在 指数 级 数量 区 域 的 表现 都 是 不 同 的 : 在 q- 维 空间 中 ,为 了 
区 分 每 一 维 ， 至 少 有 两 个 不 同 的 值 。 我 们 想 要 函数 f 区 分 这 27 个 不 同 的 区 域 ， 需 要 O(27) 量 级 的 训练 样本 
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码 这 么 多 不 同 的 区 域 , 但 它们 的 容量 仍然 是 很 有 限 的 。 例 如 ， 线 性 阀 值 单元 神经 网 
络 的 VC 维 仅 为 O(wlogw)， 其 中 w 是 权重 的 数目 (Sontag, 1998)。 这 种 限制 出 现 
的 原因 是 ， 虽 然 我 们 可 以 为 表示 空间 分 配 非常 多 的 唯一 码 ， 但 是 我 们 不 能 完全 使 用 
所 有 的 码 空间 ， 也 不 能 使 用 线性 分 类 器 学 习 出 从 表示 空间 h 到 输出 y 的 任意 函数 映 
射 。 因 此 使 用 与 线性 分 类 器 相 结合 的 分 布 式 表示 传达 了 一 种 先 验 信 念 ， 待 识别 的 类 
在 h 代表 的 潜在 因果 因子 的 孔 数 下 是 线性 可 分 的 。 我 们 通常 想 要 学 习 类 别 ， 例 如 所 
有 绿色 对 象 的 图 像 集合 ,或 是 所 有 汽车 图 像 集合 ， 但 不 会 是 需要 非 线 性 KOR 逻辑 
的 类 别 。 例 如 ， 我 们 通常 不 会 将 数据 划分 成 所 有 红色 汽车 和 绿色 卡车 作为 一 个 集合 ， 
所 有 绿色 汽车 和 红色 卡车 作为 另 一 个 集合 。 

到 目前 为 止 讨 论 的 想法 都 是 抽象 的 ， 但 是 它们 可 以 通过 实验 验证 。Zhou et al. 
(2015) 发 现 ， 在 ImageNet 和 Places 基准 数据 集 上 训练 的 深度 卷 积 网 络 中 的 隐藏 单 
元 学 成 的 特征 通常 是 可 以 解释 的 , 对 应 人 类 自然 分 配 的 标签 。 在 实践 中 , 隐藏 单元 并 
不 能 总 是 学 习 出 具有 简单 语言 学 名 称 的 事物 ， 但 有 趣 的 是 ， 这 些 事物 会 在 那些 最 好 
的 计算 机 视觉 深度 网 络 的 顶层 附近 出 现 。 这 些 特征 的 共同 之 处 在 于 ,我 们 可 以 设想 
学 习 其 中 的 每 个 特征 不 需要 知道 所 有 其 他 特征 的 所 有 配置 。Radford et al. (2015) 发 
现 生成 模型 可 以 学 习 人 上 脸 图 像 的 表示 ， 在 表示 空间 中 的 不 同方 向 捕获 不 同 的 潜在 变 
差 因素 。 图 15.9 展示 表示 空间 中 的 一 个 方向 对 应 着 该 人 是 男性 还 是 女性 ， 而 另 一 个 
方向 对 应 着 该 人 是 和 否 戴 着 眼镜 。 这 些 特 征 都 是 自动 发 现 的 ， 而 非 先 验 固 定 的 。 我 们 
没有 必要 为 隐藏 单元 分 类 器 提供 标签 : 只 要 该 任务 需要 这 样 的 特征 ， 梯 度 下 降 就 能 
在 感 兴趣 的 目标 函数 上 自然 地 学 习 出 语义 上 有 趣 的 特征 。 我 们 可 以 学 习 出 男性 和 女 
性 之 间 的 区 别 ， 或 者 是 眼镜 的 存在 与 否 ， 而 不 必 通 过 涵盖 所 有 这 些 值 组 合 的 样本 来 
表征 其 他 n 一 工 个 特征 的 所 有 配置 。 这 种 形式 的 统计 可 分 离 性 质 能 够 泛 化 到 训练 期 
间 从 未 见 过 的 新 特征 上 。 
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15.9: 生成 模型 学 到 了 分 布 式 表示 ， 能 够 从 戴 眼 镜 的 概念 中 区 分 性 别 的 概念 。 如 果 我 们 从 一 个 
戴 眼镜 的 男人 的 概念 表示 向 量 开 始 ， 然 后 减 去 一 个 没 戴 眼镜 的 男人 的 概念 表示 向 量 ， 最 后 加 上 一 
个 没 戴 眼镜 的 女人 的 概念 表示 向 量 ， 那 么 我 们 会 得 到 一 个 戴 眼镜 的 女人 的 概念 表示 向 量 。 生 成 模 
型 将 所 有 这 些 表 示 向 量 正确 地 解码 为 可 被 识别 为 正确 类 别 的 图 像 。 图 片 转载 许可 自 Radford et al. 
(2015)。 




















15.5 “得 益 于 深度 的 指数 增益 


我 们 已 经 在 第 6.4.1 节 中 看 到 ， 多 层 感知 机 是 万 能 近似 器 ， 相 比 于 浅 层 网 络 ， 一 
些 函 数 能 够 用 指数 级 小 的 深度 网 络 表示 。 缩 小 模型 规模 能 够 提高 统计 效率 。 在 本 节 
中 ， 我 们 描述 如 何 将 类 似 结果 更 一 般 地 应 用 于 其 他 具有 分 布 式 隐藏 表示 的 模型 。 

在 第 15.4 节 中 ， 我 们 看 到 了 一 个 生成 模型 的 示例 ， 能 够 学 习 人 脸 图 像 的 潜在 解 
释 因 子 ， 包 括 性 别 以 及 是 否 佩 戴 眼镜 。 完 成 这 个 任务 的 生成 模型 是 基于 一 个 深度 神 
经 网 络 的 。 浅 层 网 络 例如 线性 网 络 不 能 学 习 出 这 些 抽象 解释 因子 和 图 像 像 素 之 间 的 
复杂 关系 。 在 这 个 任务 和 其 他 AI 任务 中 ， 这 些 因 子 几乎 彼此 独立 地 被 抽取 ， 但 仍 
然 对 应 到 有 意义 输入 的 因素 ,很 有 可 能 是 高 度 抽 象 的 ， 并且 和 输入 呈 高 度 非 线 性 的 
关系 。 我 们 认为 这 需要 深度 分 布 式 表示 ， 需 要 许多 非 线 性 组 合 来 获得 较 高 级 的 特征 
(被 视 为 输入 的 函数 ) 或 因子 ( 被 视 为 生成 原因 )。 

在 许多 不 同情 景 中 已 经 证 明 , 非 线 性 和 重用 特征 层次 结构 的 组 合 来 组 织 计 算 , 可 
以 使 分 布 式 表示 获得 指数 级 加 速 之 外 ， 还 可 以 获得 统计 效率 的 指数 级 提升 。 许 多 种 
类 的 只 有 一 个 隐藏 层 的 网 络 ( 例如 ， 具 有 人 饱和 非 线 性 ， 布 尔 门 ， 和 / 积 , 或 RBF 单 
元 的 网 络 ) 都 可 以 被 视 为 万 能 近似 器 。 在 给 定 足够 多 隐藏 单元 的 情况 下 ， 这 个 模型 
族 是 一 个 万 能 近似 絮 ， 可 以 在 任意 非 零 允 错 级 别 近 似 一 大 类 函数 ( 包括 所 有 连续 函 
数 )。 然 而 ， 隐 藏 单 元 所 需 的 数量 可 能 会 非常 大 。 关 于 深层 架构 表达 能 力 的 理论 结果 
表明 ， 有 些 函 数 族 可 以 高 效 地 通过 深度 k 层 的 网 络 架构 表示 ， 但 是 深度 不 够 〈 深度 
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为 2 或 上 一 1) 时 会 需要 指数 级 (相对 于 输入 大 小 而 言 ) 的 隐藏 单元 。 

在 第 6.4.1 节 中 ， 我们 看 到 确定 性 前 馈 网 络 是 也 数 的 万 能 近似 器 。 许 多 具有 单 
个 隐藏 层 CIAR AE) 的 结构 化 概率 模型 ( 包括 受 限 玻 尔 兹 曼 机 , 深度 信念 网 络 ) 是 概 
率 分 布 的 万 能 近似 絮 (Le Roux and Bengio, 2007; Montúfar and Ay, 2011; Montufar 
et al., 2014; Krause et al., 2013). 

在 第 6.4.1 市 中 ,我 们 看 到 足够 深 的 前 馈 网 络 会 比 深度 不 够 的 网 络 具 有 指数 级 优 
势 。 这 样 的 结果 也 能 从 诸如 概率 模型 的 其 他 模型 中 获得 。 和 - 积 网 络 ( sum-product 
network, SPN ) (Poon and Domingos, 2011) 是 这 样 的 一 种 概率 模型 。 这 些 模型 使 
用 多 项 式 回 路 来 计算 一 组 随机 变量 的 概率 分 布 。Delalleau and Bengio (2011) 表明 存 
在 一 种 概率 分 布 , 对 SPN 的 最 小 深度 有 要 求 ， 以 避免 模型 规模 呈 指 数 级 增长 。 后 来 ， 
Martens and Medabalimi (2014) 表明 ,任意 两 个 有 限 深 度 的 SPN 之 间 都 会 存在 显 
著 差 异 ， 并 且 一 些 使 SPN 易于 处 理 的 约束 可 能 会 限制 其 表示 能 力 。 

另 一 个 有 趣 的 进展 是 ， 一 系列 和 卷 积 网 络 相关 的 深度 回路 族 表达 能 力 的 理论 结 
果 ， 即 使 让 浅 度 回 路 只 去 近似 深度 回路 计算 的 函数 ， 也 能 突出 反映 深度 回路 的 指数 
级 优势 (Cohen et al., 2015)。 相 比 之 下 ， 以 前 的 理论 工作 只 研究 了 浅 度 回路 必须 精 
确 复制 特定 函数 的 情况 。 

















15.6 ”提供 发 现 潜在 原因 的 线索 


我 们 回 到 最 初 的 问题 之 一 来 结束 本 章 : 什么 原因 能 够 使 一 个 表示 比 为 一 个 表示 
更 好 ? 首先 在 第 15.3 节 中 介绍 的 一 个 答案 是 ， 一 个 理想 的 表示 能 够 区 分 生成 数据 变 
化 的 潜在 因果 因子 ,特别 是 那些 与 我 们 的 应 用 相关 的 因素 。 表 示 学 习 的 大 多 数 策略 
都 会 引 和 人 一 些 有 助 于 学 习 潜在 变 差 因素 的 线索 。 这 些 线索 可 以 帮助 学 习 器 将 这 些 观 
察 到 的 因素 与 其 他 因素 分 开 。 监 督学 习 提 供 了 非常 强 的 线索 : 每 个 观察 向 量 a 的 标 
签 y， 它 通常 直接 指定 了 至 少 一 个 变 差 因 素 。 更 一 般 地 ,为 了 利用 丰富 的 未 标注 数 
据 ， 表 示 学 习 会 使 用 关于 潜在 因素 的 其 他 不 太 直 接 的 提示 。 这 些 提示 包含 一 些 我 们 
(学 习 算 法 的 设计 者 ) 为 了 引导 学 习 带 而 强加 的 隐 式 先 验 信息 。 诸 如 没有 免费 午餐 定 
理 的 这 些 结果 表明 ,正则 化 策略 对 于 获得 良好 泛 化 是 很 有 必要 的 。 当 不 可 能 找到 一 
个 普遍 良好 的 正则 化 策略 时 ,深度 学 习 的 一 个 目标 是 找到 一 套 相 当 通 用 的 正则 化 策 
略 ， 使 其 能 够 适用 于 各 种 各 样 的 AI 任务 〈 类 似 于 人 和 动物 能 够 解决 的 任务 )。 

在 此 ， 我 们 提供 了 一 些 通用 正则 化 策略 的 列表 。 该 列表 显然 是 不 详尽 的 ， 但 是 
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给 出 了 一 些 学 习 算 法 是 如 何 发 现 对 应 潜在 因素 的 特征 的 具体 示例 。 该 列表 在 Bengio 
et al. (2013e) 的 第 3.1 节 中 提出 ， 这 里 进行 了 部 分 拓展 。 


e EE: 假设 对 于 单位 d 和 小 量 e 有 f(z 十 cq) = /mw。 这 个 假设 允许 学 习 器 从 
训练 样本 泛 化 到 输入 空间 中 附近 的 点 。 许 多 机 顺 学 习 算 法 都 利用 了 这 个 想法 ， 
但 它 不 能 克服 维 数 灾难 难题 。 


线性 : 很 多 学 习 算 法 假定 一 些 变量 之 间 的 关系 是 线性 的 。 这 使 得 算法 能 够 预测 
远离 观测 数据 的 点 ， 但 有 时 可 能 会 导致 一 些 极端 的 预测 。 大 多 数 简单 的 学 习 
算法 不 会 做 平滑 假设 ， 而 会 做 线性 假设 。 这 些 假设 实际 上 是 不 同 的 ， 具 有 很 
大 权重 的 线性 函数 在 高 维 空间 中 可 能 不 是 非常 平滑 的 。 参 看 Goodfellow et al. 
(2014b) 了 解 关 于 线性 假设 局 限 性 的 进一步 讨论 。 


多 个 解释 因子 : 许多 表示 学 习 算 法 受 以 下 假设 的 启发 ， 数 据 是 由 多 个 潜在 解释 
因子 生成 的 , 并 且 给 定 每 一 个 因子 的 状态 , 大 多 数 任务 都 能 轻易 解决 。 F 15.3 5 
描述 了 这 种 观点 如 何 通 过 表示 学 习 来 启发 半 监 督学 习 的 。 学 习 p(x) 的 结构 要 
求学 习 出 一 些 对 建 模 p(y | a) 同样 有 用 的 特征 ， 因 为 它们 都 涉及 到 相同 的 洪 
在 解释 因子 。 第 15.4 节 介绍 了 这 种 观点 如 何 启 发 分 布 式 表示 的 使 用 ， 表 示 空 间 
中 分 离 的 方向 对 应 着 分 离 的 变 差 因素 。 


ARAF: 该 模型 认为 学 成 表示 所 描述 的 变 差 因 素 是 观察 数据 z 的 成 因 ， 而 
并 非 反 过 来 。 正 如 第 15.3 节 中 讨论 的 ， 这 对 于 半 监 督学 习 是 有 利 的 ， 当 潜在 成 
因 上 的 分 布 发 生 改变 ,或 者 我 们 应 用 模型 到 一 个 新 的 任务 上 时 ， 学 成 的 模型 都 
ZEME, 


深度 ， 或 者 解释 因子 的 层次 组 织 : 高 级 抽象 概念 能 够 通过 将 简单 概念 层次 化 来 
定义 。 从 男 一 个 角度 来 看 ， 深 度 架 构 表达 了 我 们 认为 任务 应 该 由 多 个 程序 步 台 
完成 的 观念 ， 其 中 每 一 个 步骤 回溯 到 先前 步 又 处 理 之 后 的 输出 。 


任务 间 共 享 因素 : 当 多 个 对 应 到 不 同 变量 y; 的 任务 共享 相同 的 输入 x 时 , 或 
者 当 每 个 任务 关联 到 全 局 输入 x 的 子 集 或 者 函数 FO (x) 时 ， 我 们 会 假设 每 个 
变量 y; 关联 到 来 自 相 关 因 素 h 公共 池 的 不 同 子 集 。 因 为 这 些 子 集 有 重修 ， 所 
以 通过 共享 的 中 间 表 示 Ph | x) 来 学 习 所 有 的 P(y; | x) 能 够 使 任务 间 共 享 统 
计 强 度 。 


流 形 : 概率 质量 集中 ， 并 且 集 中 区 域 是 局 部 连通 的 ， 且 占据 很 小 的 体积 。 在 连 
续 情 况 下 ， 这 些 区 域 可 以 用 比 数据 所 在 原始 空间 低 很 多 维 的 低 维 流 形 来 近似 。 
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很 多 机 器 学 习 算 法 只 在 这 些 流 形 上 有 效 (Goodfellow et aL, 2014b)。 一些 机 带 
学 习 算法 ， 特 别 是 自 编 码 器 ， 会 试图 显 式 地 学 习 流 形 的 结构 。 


自然 聚 类 : 很 多 机 顺 学 习 算 法 假设 输入 空间 中 每 个 连通 流 形 可 以 被 分 配 一 个 单 
独 的 类 。 数 据 分 布 在 许多 个 不 连通 的 流 形 上 ， 但 相同 流 形 上 数据 的 类 别 是 相同 
的 。 这 个 假设 激励 了 各 种 学 习 算法 ,包括 正切 传播 、 双 反 向 传播 、 流 形 正切 分 
类 器 和 对 抗 训练 。 


时 间 和 空间 相干 性 : 慢 特征 分 析 和 相关 的 算法 假设 ， 最 重要 的 解释 因子 随时 间 
变化 很 缓慢 ， 或 者 至 少 假 设 预测 真实 的 潜在 解释 因子 比 预测 诸如 像素 值 这 类 原 
台 观 察 会 更 容易 些 。 读 考 可 以 参考 第 13.3 节 ， 进 一 步 了 解 这 个 方法 。 


Fir BE: 假设 大 部 分 特征 和 大 部 分 输入 不 相关 ， 如 在 表示 猫 的 图 像 时 ， 没 有 必 
要 使 用 象 鼻 的 特征 。 因 此 ， 我 们 可 以 强加 一 个 先 验 ， 任 何 可 以 解释 为 “存在 ” 
或 “不 存在 ”的 特征 在 大 多 数 时 间 都 是 不 存在 的 。 


简化 因子 依赖 ， 在 良好 的 高 级 表示 中 ， 因 子 会 通过 简单 的 依赖 相互 关联 。 最 简 
单 的 可 能 是 边缘 独立 ， 即 Ph) = [T, P(ED)。 但 是 线性 依赖 或 浅 层 自 编码 器 所 
能 表示 的 依赖 关系 也 是 合理 的 假设 。 这 可 以 从 许多 物理 定律 中 看 出 来 ， 并 且 候 
设 在 学 成 表示 的 顶层 插入 线性 预测 器 或 分 解 的 先 验 。 





表示 学 习 的 概念 将 许多 深度 学 习 形式 联系 在 了 一 起 。 前 馈 网 络 和 循环 网 络 ， 自 
编码 顺和 座 度 概率 模型 都 在 学 习 和 使 用 表示 。 学 习 最 佳 表示 仍然 是 一 个 令 人 兴奋 的 
研究 方向 。 
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SNS ”深度 学 习 中 的 结构 化 概率 模 


深度 学 习 为 研究 者 们 提供 了 许多 建 模 方式 ， 用 以 设计 以 及 描述 算法 。 其 中 一 
种 形式 是 结构 化 概率 模型 (structured probabilistic model) 的 思想 。 我 们 曾经 在 
第 3.14 节 中 简要 讨论 过 结构 化 概率 模型 。 此 前 简要 的 介绍 已 经 足够 使 我 们 充分 了 解 
如 何 使 用 结构 化 概率 模型 作为 描述 第 二 部 分 中 某 些 算法 的 语言 。 现 在 在 第 三 部 分 ， 
我 们 可 以 看 到 结构 化 概率 模型 是 许多 深度 学 习 重 要 研究 方向 的 关键 组 成 部 分 。 作 为 
讨论 这 些 研 究 方向 的 预备 知识 ， 本 章 将 更 加 详细 地 描述 结构 化 概率 模型 。 本 章 内 容 
是 自 洽 的 ， 所 以 在 阅读 本 章 之 前 读者 不 需要 回顾 之 前 的 介绍 。 

结构 化 概率 模型 使 用 图 来 描述 概率 分 布 中 随机 变量 之 间 的 直接 相互 作用 ， 从 
而 描述 一 个 概率 分 布 。 在 这 里 我 们 使 用 了 图 论 (一 系列 结 点 通过 一 系列 边 来 连接 ) 
中 “图 ”的 概念 ， 由 于 模型 结构 是 由 图 定义 的 ， 所 以 这 些 模 型 也 通常 被 称 为 图 模型 
( graphical model ). 

图 模型 的 研究 社 群 是 巨大 的 , J HARKER, VARRE EAE. 在 本 
章 中 ， 我 们 将 介绍 图 模型 中 几 个 核心 方法 的 基本 背景 ， 并 且 重 点 描述 已 被 证 明 对 深 
度 学 习 社 群 最 有 用 的 观点 。 如 果 你 已 经 熟知 图 模型 ， 那 么 你 可 以 跳 过 本 章 的 绝 大 部 
分 。 然 而 ， 我 们 相信 和 即使 是 资深 的 图 模型 方向 的 研究 者 也 会 从 本 章 的 最 后 一 节 中 获 
益 菲 浅 ， 详 见 第 16.7 节 ， 其 中 我 们 强调 了 在 深度 学 习 算 法 中 使 用 图 模型 的 独特 方式 。 
相 比 于 其 他 图 模型 研究 领域 的 是 ， 深 度 学 习 的 研究 者 们 通常 会 使 用 完全 不 同 的 模型 
结构 、 学 习 算 法 和 推断 过 程 。 在 本 章 中 ， 我 们 将 指明 这 种 区 别 并 解释 其 中 的 原因 。 

我 们 首先 介绍 了 构建 大 规模 概率 模型 时 面临 的 挑战 。 之后, 我 们 介绍 如 何 使 用 一 
个 图 来 描述 概率 分 布 的 结构 。 尽 管 这 个 方法 能 够 帮助 我 们 解决 许多 挑战 和 问题 ， 它 
本 身 仍 有 很 多 缺陷 。 图 模型 中 的 一 个 主要 难点 就 是 判断 哪些 变量 之 间 存 在 直接 的 相 
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互 作用 关系 , 也 就 是 对 于 给 定 的 问题 哪 一 种 图 结构 是 最 适合 的 。 在 第 16.5 WP, 我 们 
通过 了 解 依赖 (dependency ), 简要 概括 了 解决 这 个 难点 的 两 种 方法 。 最 后 ， 作 为 本 
章 的 收尾 ,我们 在 第 16.7 节 中 讨论 深度 学 习 人 研究 者 使 用 图 模型 特定 方式 的 独特 之 处 。 


16.1 ” 非 结 构 化 建 模 的 挑战 


深度 学 习 的 目标 是 使 得 机 天 学习 能 够 解决 许多 人 工 智能 中 或 需 解决 的 挑战 。 这 
意味 着 它们 能 够 理解 具有 丰富 结构 的 高 维 数据 。 举 个 例子 ， 我 们 和 希望 AI 的 算法 能 
够 理解 自然 图 片 !， 表 示 语 音 的 声音 信号 和 包含 许多 词 和 标点 的 文档 。 

分 类 问题 可 以 把 这 样 一 个 来 自 高 维 分 布 的 数据 作为 输入 ， 然 后 使 用 一 个 类 别 的 
标签 来 概括 它 一 一 这 个 标签 可 以 是 照片 中 是 什么 物品 ， 一 段 语音 中 说 的 是 哪个 单词 ， 
也 可 以 是 一 段 文档 描述 的 是 哪个 话题 。 这 个 分 类 过 程 丢 弃 了 输入 数据 中 的 大 部 分 信 
息 ， 然 后 产生 单个 值 的 输出 (或 者 是 关于 单个 输出 值 的 概率 分 布 )。 这 个 分 类 顺 通 常 
可 以 忽略 输入 数据 的 很 多 部 分 。 例 如 ， 当 我 们 识别 一 张 照 请 中 的 一 个 物体 时 ， 我 们 
通常 可 以 忽略 图 片 的 背景 。 

我 们 也 可 以 使 用 概率 模型 完成 许多 其 他 的 任务 。 这 些 任务 通常 相 比 于 分 类 成 本 
更 高 。 其 中 的 一 些 任务 需要 产生 多 个 输出 。 大 部 分 任务 需要 对 输入 数据 整个 结构 的 
完整 理解 ， 所 以 并 不 能 舍弃 数据 的 一 部 分 。 这 些 任 务 包括 以 下 几 个 : 





e 估计 密度 函数 : 给 定 一 个 输入 zz， 机 器 学 习 系 统 返 回 一 个 对 数据 生成 分 布 的 真 
实 密度 函数 p(z) 的 估计 。 这 只 需要 一 个 输出 , 但 它 需要 完全 理解 整个 输入 。 即 
使 向 量 中 只 有 一 个 元 素 不 太 正常 ， 系 统 也 会 给 它 赋 予 很 低 的 概率 。 


AMR: 给 定 一 个 受 损 的 或 者 观察 有 误 的 输入 数据 过 ， 机 器 学 习 系统 返回 一 个 对 
原始 的 真实 z 的 估计 。 举 个 例子 ， 有 时 候 机 器 学 习 系 统 需要 从 一 张 老 相 片 中 去 
除 灰 全 或 者 抓 痕 。 这 个 系统 会 产生 多 个 输出 值 (对 应 着 估计 的 干净 样本 z 的 每 
一 个 元 素 ),， 并 且 需 要 我 们 有 一 个 对 输入 的 整体 理解 ( 因为 即使 只 有 一 个 损坏 
的 区 域 ,， 仍然 会 显示 最 终 估 计 被 损坏 )。 

缺失 值 的 填补 : 给 定 z 的 某 些 元 素 作为 观察 值 ， 模 型 被 要 求 返回 一 个 s 一 些 或 
者 全 部 未 观察 值 的 估计 或 者 概率 分 布 。 这 个 模型 返回 的 也 是 多 个 输出 。 由 于 这 
个 模型 需要 恢复 m 的 每 一 个 元 素 ， 所 以 它 必须 理解 整个 输入 。 

然 图 片 指 的 是 能 够 在 正常 的 环境 下 被 照相 机 拍摄 的 图 片 ， 不 同 于 合成 的 图 片 ， 或 者 一 个 网 页 的 堆 图 等 等 。 











m 
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e 采样: 模型 从 分 布 p(a) 中 抽取 新 的 样本 。 其 应 用 包括 语音 合成 ， 即 产生 一 个 
听 超 来 很 像 人 说 话 的 声音 。 这 个 模型 也 需要 多 个 输出 以 及 对 输入 整体 的 良好 建 
模 。 即 使 样本 只 有 一 个 从 错误 分 布 中 产生 的 元 素 ,， 那么 采样 的 过 程 也 是 错误 的 。 


图 16.1 中 描述 了 一 个 使 用 较 小 的 自然 图 片 的 采样 任务 。 


| 
[572 uM Jos 
ae 


nye} 
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图 16.1: 自然 图 片 的 概率 建 模 。( 上 ) CIFAR-10 数据 集 (Krizhevsky and Hinton, 2009) 中 的 
32 x 32 像素 的 样 例 图 片 。( 下 ) 从 这 个 数据 集 上 训练 的 结构 化 概率 模型 中 抽出 的 样本 。 每 一 个 样本 
都 出 现在 与 其 欧式 距离 最 近 的 训练 样本 的 格 点 中 。 这 种 比较 使 得 我 们 发 现 这 个 模型 确实 能 够 生成 
新 的 图 片 ,而 不 是 记 住 训练 样本 。 为 了 方便 展示 ,两 个 集合 的 图 片 都 经 过 了 微调 。 图 片 经 Courville 
et al. (2011a) 许可 转载 。 
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对 上 千 甚 至 是 上 百 万 随机 变量 的 分 布 建 模 ， 无 论 从 计算 上 还 是 从 统计 意义 上 说 ， 
都 是 一 个 极 具 挑战 性 的 任务 。 假 设 我 们 只 想 对 二 值 的 随机 变量 建 模 。 这 是 一 个 最 简 
单 的 例子 ， 但 是 我 们 仍然 无 能 为 力 。 对 一 个 只 有 32 x 32 像素 的 彩色 (RGB) 图 片 
来 说 ,存在 297? 种 可 能 的 二 值 图 片 。 这 个 数量 已 经 超过 了 108"% ， 比 宇宙 中 的 原子 
总 数 还 要 多 。 

通常 意义 上 讲 ， 如 果 我 们 希望 对 一 个 包含 ”个 离散 变量 并 且 每 个 变量 都 能 取 k 
个 值 的 z 的 分 布 建 模 ， 那么 最 简单 的 表示 Pe) 的 方法 需要 存储 一 个 可 以 查询 的 表 
格 。 这 个 表格 记录 了 每 一 种 可 能 值 的 概率 ， 则 需要 k" 个 参数 。 

基于 下 述 几 个 原因 ， 这 种 方式 是 不 可 行 的 : 








e 内 存 : 存储 参数 的 开销 。 除了 极 小 的 n 和 的 值 ， 用 表格 的 形式 来 表示 这 样 
一 个 分 布 需 要 太 多 的 存储 空间 。 


统计 的 高 效 性 : 当 模 型 中 的 参数 个 数 增加 时 ， 使 用 统计 估计 器 估计 这 些 参数 所 
需要 的 训练 数据 数量 也 需要 相应 地 增加 。 因 为 基于 查 表 的 模型 拥有 天 文 数 字 级 
别 的 参数 ， 为 了 准确 地 拟 合 ， 相 应 的 训练 集 的 大 小 也 是 相同 级 别 的 。 任 何 这 样 
的 模型 都 会 导致 严重 的 过 拟 合 ， 除 非 我 们 添加 一 些 额 外 的 假设 来 联系 表格 中 的 
不 同 元 素 (正如 第 12.4.1 节 中 所 举 的 回 退 或 者 平滑 n-gram 模型 )。 


运行 时 间 : 推断 的 开销 。 假设 我 们 需要 完成 这 样 一 个 推断 的 任务 ， 其 中 我 们 需 
要 使 用 联合 分 布 P(x) 来 计算 某 些 其 他 的 分 布 ， 比 如 说 边缘 分 布 Pa) 或 者 是 
条 件 分 布 P(x | x1)o 计算 这 样 的 分 布 需要 对 整个 表格 的 某 些 项 进行 求 和 操作 ， 
因此 这 样 的 操作 的 运行 时 间 和 上 述 高 易 的 内 存 开销 是 一 个 级 别 的 。 


运行 时 间 : 采样 的 开销 。 类 似 的 ， 假 设 我 们 想 要 从 这 样 的 模型 中 采样 。 最 简单 
的 方法 就 是 从 均匀 分 布 中 采样 ，w ~ U(0, 1)， 然 后 把 表格 中 的 元 素 累 加 起 来 ， 
直到 和 大 于 wu， 然后 返回 最 后 一 个 加 上 的 元 素 。 最 差 情况 下 ， 这 个 操作 需要 读 
取 整 个 表格 ， 所 以 和 其 他 操作 一 样 ， 它 也 需要 指数 级 别 的 时 间 。 





基于 表格 操作 的 方法 的 主要 问题 是 我 们 显 式 地 对 每 一 种 可 能 的 变量 子 集 所 产生 
的 每 一 种 可 能 类 型 的 相互 作用 建 模 。 在 实际 问题 中 我 们 遇 到 的 概率 分 布 远 比 这 个 简 
单 。 通 常 ， 许 多 变量 只 是 间接 地 相互 作用 。 

例如 ， 我 们 想 要 对 接力 跑步 比赛 中 一 个 队伍 完成 比赛 的 时 间 进 行 建 模 。 假 设 这 
个 队伍 有 三 名 成 员 : Alice, Bob 和 Carol。 在 比赛 开始 时 ，Alice 拿 着 接力 棒 ， 开 始 
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跑 第 一 段 距离 。 在 跑 完 她 的 路 程 以 后 ， 她 把 棒 递 给 了 Bob。 然 后 Bob 开始 跑 ， 再 把 
棒 给 Carol, Carol 跑 最 后 一 棒 。 我 们 可 以 用 连续 变量 来 建 模 他 们 每 个 人 完成 的 时 间 。 
因为 Alice 第 一 个 跑 , 所 以 她 的 完成 时 间 并 不 依赖 于 其 他 的 人 。Bob 的 完成 时 间 依 赖 
于 Alice 的 完成 时 间 ， 因 为 Bob 只 能 在 Alice 跑 完 以 后 才能 开始 跑 。 如 果 Alice 跑 得 
ER, IA Bob 也 会 完成 得 更 快 。 所 有 其 他 关系 都 可 以 被 类 似 地 推出 。 最 后 ，Carol 
的 完成 时 间 依 赖 于 她 的 两 个 队友 。 如 果 Alice IRIE, IA Bob 也 会 完成 得 更 慢 。 
结果 ，Carol 将 会 更 晚 开 始 跑步 ， 因 此 她 的 完成 时 间 也 更 有 可 能 要 晚 。 然 而 ， 在 给 定 
Bob 完成 时 间 的 情况 下 ，Carol 的 完成 时 间 只 是 间接 地 依赖 于 Alice 的 完成 时 间 。 如 
果 我 们 已 经 知道 了 Bob 的 完成 时 间 ， 知 道 Alice 的 完成 时 间 对 估计 Carol 的 完成 时 
间 并 无 任何 帮助 。 这 意味 着 我 们 可 以 通过 仅仅 两 个 相互 作用 来 建 模 这 个 接力 赛 。 这 
两 个 相互 作用 分 别 是 Alice 的 完成 时 间 对 Bob 的 完成 时 间 的 影响 和 Bob 的 完成 时 间 
对 Carol 的 完成 时 间 的 影响 。 在 这 个 模型 中 ， 我 们 可 以 忽略 第 三 种 间接 的 相互 作用 ， 
即 Alice 的 完成 时 间 对 Carol 的 完成 时 间 的 影响 。 

结构 化 概率 模型 为 随机 变量 之 间 的 直接 作用 提供 了 一 个 正式 的 建 模 框架 。 这 种 
方式 大 大 减少 了 模型 的 参数 个 数 以 致 于 模型 只 需要 更 少 的 数据 来 进行 有 效 的 估计 。 
这 些 更 小 的 模型 大 大 减 小 了 在 模型 存储 、 模 型 推断 以 及 从 模型 中 采样 时 的 计算 开销 。 





16.2 ”使 用 图 描述 模型 结构 


结构 化 概率 模型 使 用 图 ( 在 图 论 中 “ 结 点 ”是 通过 “ 边 ” 来 连接 的 ) 来 表示 随机 
变量 之 间 的 相互 作用 。 每 一 个 结 点 代表 一 个 随机 变量 。 每 一 条 边 代表 一 个 直接 相互 
作用 。 这 些 直 接 相互 作用 隐 含 着 其 他 的 间接 相互 作用 ,但 是 只 有 直接 的 相互 作用 会 
被 显 式 地 建 模 。 

使 用 图 来 描述 概率 分 布 中 相互 作用 的 方法 不 止 一 种 。 在 下 文中 我 们 会 介绍 几 种 
最 为 流行 和 有 用 的 方法 。 图 模型 可 以 被 大 致 分 为 两 类 : 基于 有 向 无 环 图 的 模型 和 基 
于 无 向 图 的 模型 。 
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16.2.1 ”有 向 模型 


有 向 图 模型 ( directed graphical model) 是 一 种 结构 化 概率 模型 ， 也 被 称 为 信 
念 网 络 (belief network ) 或 者 贝 叶 斯 网 络 (Bayesian network ) ?(Pearl, 1985)。 


之 所 以 命名 为 有 向 图 模型 是 因为 所 有 的 边 都 是 有 方向 的 ， 即 从 一 个 结 点 指向 另 
一 个 结 点 。 这 个 方向 可 以 通过 画 一 个 箭头 来 表示 。 箭 头 所 指 的 方向 表示 了 这 个 随机 
变量 的 概率 分 布 是 由 其 他 变量 的 概率 分 布 所 定义 的 。 画 一 个 从 结 点 a 到 结 点 b RUN 
头 表 示 了 我 们 用 一 个 条 件 分 布 来 定义 b， 而 a 是 作为 这 个 条 件 分 布 符号 右边 的 一 个 
变量 。 换 句 话 说 ，b 的 概率 分 布依 赖 于 a 的 取 值 。 

我 们 继续 第 16.1 节 所 讲 的 接力 赛 的 例子 ,我 们 假设 Alice 的 完成 时 间 为 to, Bob 
的 完成 时 间 为 t1, Carol 的 完成 时 间 为 tz。 就 像 我 们 之 前 看 到 的 一 样 ，ta 的 估计 是 
依赖 于 to B3, t; 的 估计 是 直接 依赖 于 ta 的 ， 但 是 仅仅 间接 地 依赖 于 to。 我 们 用 一 
个 有 向 图 模型 来 建 模 这 种 关系 ， 如 图 16.2 所 示 。 





Alice Bob Carol 


OA 


图 16.2: 描述 接力 赛 例子 的 有 向 图 模型 。Alice 的 完成 时 间 to 影响 了 Bob 的 完成 时 间 tl ， 因 为 
Bob 只 能 在 Alice 完成 比赛 后 才 开 始 。 类 似 的 ，Carol 也 只 会 在 Bob 完成 之 后 才 开 始 ， 所 以 Bob 
的 完成 时 间 t4 直接 影响 了 Carol 的 完成 时 间 to. 


正式 地 说 ,变量 x 的 有 向 概率 模型 是 通过 有 向 无 环 图 9 (每 个 结 点 都 是 模型 中 的 
随机 变量 ) 和 一 系列 局 部 条 件 概率 分 布 (local conditional probability distribution ) 
p(x: | Pag(x;)) 来 定义 的 ， 其 中 Pag(x;) 表示 结 点 x, 的 所 有 父 结 点 。x 的 概率 分 布 
可 以 表示 为 


p(x) = T] pts | Pac). (16.1) 


2 


在 之 前 所 述 的 接力 赛 的 例子 中 ， 参 考 图 16.2 ， 这 意味 着 概率 分 布 可 以 被 表示 为 


p(to, ti, 2) = p(to)p(ti | to)p(tz | t1). (16.2) 





2 当 我 们 希望 “强调 ”从 网 络 中 计算 出 的 值 的 “推断 ”本 质 ， 即 强调 这 些 值 代表 的 是 置信 程度 大 小 而 不 是 事件 的 频 
率 时 ，Judea Pearl 建议 使 用 “ 贝 叶 斯 网 络 ” 这 个 术语 。 
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这 是 我 们 看 到 的 第 一 个 结构 化 概率 模型 的 实际 例子 。 我 们 能 够 检查 这 样 建 模 的 
计算 开销 ， 为 了 验证 相 比 于 非 结 构 化 建 模 ， 结 构 化 建 模 为 什么 有 那么 多 的 优势 。 

假设 我 们 采用 从 第 0 分 钟 到 第 10 分 钟 每 6 秒 一 块 的 方式 离散 化 地 表示 时 间 。 
这 使 得 to, tı 和 te 都 是 一 个 有 100 个 取 值 可 能 的 离散 变量 。 如 果 我 们 尝试 着 用 一 个 
表 来 表示 p(to,t1,t2)， 那 么 我 们 需要 存储 999, 999 “MEL (100 个 to 的 可 能 取 值 x t; 
的 可 能 取 值 x 100 个 ta 的 可 能 取 值 减 去 1， 由 于 存在 所 有 的 概率 之 和 为 1 的 限制 ， 
所 以 其 中 有 1 个 值 的 存储 是 多 余 的 )。 反 之 ， 如 果 我 们 用 一 个 表 来 记录 每 一 种 条 件 概 
率 分 布 ， 那 么 表 中 记录 to 的 分 布 需要 存储 99 个 值 ， 给 定 to 情况 下 ti 的 分 布 需要 
存储 9900 个 值 ， 给 定 ti 情况 下 to 的 分 布 也 需要 存储 9900 个 值 。 加 起 来 总 共 需 要 
存储 19,899 个 值 。 这 意味 着 使 用 有 向 图 模型 将 参数 的 个 数 减少 了 超过 50 fi! 

通常 意义 上 说 ， 对 每 个 变量 都 能 取 个 值 的 ”个 变量 建 模 ， 基 于 建 表 的 方法 需 
要 的 复杂 度 是 O(k"*)， 就 像 我 们 之 前 观察 到 的 一 样 。 现 在 假设 我 们 用 一 个 有 向 图 模 
型 来 对 这 些 变 量 建 模 。 如 果 m 代表 图 模型 的 单个 条 件 概 率 分 布 中 最 大 的 变量 数目 
(在 条 件 符号 的 左右 皆 可 )， 那 么 对 这 个 有 向 模型 建 表 的 复杂 度 大 致 为 O(k"), AE 
我 们 在 设计 模型 时 使 其 满足 m < n， 那 么 复杂 度 就 会 被 大 大 地 减 小 。 

换 一 句 话说 ， 只 要 图 中 的 每 个 变量 都 只 有 少量 的 父 结 点 ， 那 么 这 个 分 布 就 可 以 
用 较 少 的 参数 来 表示 。 图 结构 上 的 一 些 限制 条 件 ， 比 如 说 要 求 这 个 图 为 一 棵 树 ， 也 
可 以 保证 一 些 操作 (例如 求 一 小 部 分 变量 的 边缘 或 者 条 件 分 布 ) 更 加 地 高 效 。 

决定 哪些 信息 需要 被 包含 在 图 中 而 哪些 不 需要 是 很 重要 的 。 如 果 变 量 之 间 可 以 
被 假设 为 是 条 件 独立 的 ， 那 么 这 个 图 可 以 包含 这 种 简化 假设 。 当 然 也 存在 其 他 类 型 
的 简化 图 模型 的 假设 。 例 如 ， 我 们 可 以 假设 无 论 Alice 的 表现 如 何 ，Bob 总 是 跑 得 
一 样 快 (实际 上 ，Alice 的 表现 很 大 概率 会 影响 Bob 的 表现 ， 这 取决 于 Bob 的 性 格 ， 
如 果 在 之 前 的 比赛 中 Alice 跑 得 特别 快 ， 这 有 可 能 鼓励 Bob 更 加 努力 并 取得 更 好 的 
成 绩 ， 当 然 这 也 有 可 能 使 得 Bob 过 分 自信 或 者 变 得 懒 居 )。 那 么 Alice 对 Bob 的 唯 
一 影响 就 是 在 计算 Bob 的 完成 时 间 时 需要 加 上 Alice 的 时 间 。 这 个 假设 使 得 我 们 所 
需要 的 参数 量 从 OK?) 降 到 了 O(k)。 然 而 ,值得 注意 的 是 在 这 个 假设 下 to M tı 15 
然 是 直接 相关 的 ， 因 为 t 表示 的 是 Bob 完成 时 的 时 间 ， 并 不 是 他 跑 的 总 时 间 。 这 也 
意味 着 图 中 会 有 一 个 从 to 指向 ti 的 箭头 。“Bob 的 个 人 跑步 时 间 相 对 于 其 他 因素 是 
独立 的 ”这 个 假设 无 法 在 to, ti, t» 的 图 中 被 表示 出 来 。 反之 ,我们 只 能 将 这 个 关系 
表示 在 条 件 分 布 的 定义 中 。 这 个 条 件 分 布 不 再 是 一 个 大 小 为 kk x 一 1 的 分 别 对 应 着 
to, ti 的 表格 ,而 是 一 个 包含 了 一 1 个 参数 的 略微 复杂 的 公式 。 有 向 图 模型 的 语法 
并 不 能 对 我 们 如 何 定义 条 件 分 布 作出 任何 限制 。 它 只 定义 了 哪些 变量 可 以 作为 其 中 























wwaibbt.com rH E BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
16.2 使 用 图 描述 模型 结构 481 


的 参数 。 


16.2.2 “无 向 模型 


有 向 图 模型 为 我 们 提供 了 一 种 描述 结构 化 概率 模型 的 语言 。 而 另 一 种 常见 的 语 
言 则 是 无 向 模型 (undirected Model )， 也 被 称 为 马尔 可 夫 随 机 场 (Markov random 
field, MRF ) 或 者 是 马尔 可 夫 网 络 ( Markov network ) (Kindermann, 1980)。 就 像 它 
们 的 名 字 所 说 的 那样 ， 无 向 模型 中 所 有 的 边 都 是 没有 方向 的 。 

当 存在 很 明显 的 理由 画 出 每 一 个 指向 特定 方向 的 箭头 时 ， 有 向 模型 显然 最 适用 。 
有 回 模 型 中 ， 经 常 存在 我 们 理解 的 具有 因果 关系 以 及 因果 关系 有 明确 方向 的 情况 。 
接力 赛 的 例子 就 是 一 个 这 样 的 情况 。 之 前 运动 员 的 表现 会 影响 后 面 运 动员 的 完成 时 
间 ， 而 后 面 运动 员 却 不 会 影响 前 面 运动 员 的 完成 时 间 。 

然而 并 不 是 所 有 情况 的 相互 作用 都 有 一 个 明确 的 方向 关系 。 当 相互 的 作用 并 没 
有 本 质 性 的 指向 ， 或 者 是 明确 的 双向 相互 作用 时 ， 使 用 无 癌 模 型 更 加 合适 。 

作为 一 个 这 种 情况 的 例子 ， 假 设 我 们 希望 对 三 个 二 值 随机 变量 建 模 : 你 是 否 生 
病 ， 你 的 同事 是 否 生病 以 及 你 的 室友 是 否 生 病 。 就 像 在 接力 赛 的 例子 中 所 作 的 简化 
假设 一 样 ， 我 们 可 以 在 这 里 做 一 些 关于 相互 作用 的 简化 假设 。 假 设 你 的 室友 和 同事 
并 不 认识 ， 所 以 他 们 不 太 可 能 直接 相互 传染 一 些 疾 病 ， 比 如 说 感冒 。 这 个 事件 太 过 
罕见 ， 所 以 我 们 不 对 此 事件 建 模 。 然 而 ， 很 有 可 能 其 中 之 一 将 感冒 传染 给 你 ， 然 后 
通过 你 再 传染 给 了 另 一 个 人 。 我 们 通过 对 你 的 同事 传染 给 你 以 及 你 传染 给 你 的 室友 
建 模 来 对 这 种 间接 的 从 你 的 同事 到 你 的 室友 的 感冒 传染 建 模 。 

在 这 种 情况 下 ， 你 传染 给 你 的 室友 和 你 的 室友 传染 给 你 都 是 非常 容易 的 ， 所 以 
模型 不 存在 一 个 明确 的 单 向 箭头 。 这 启发 我 们 使 用 无 向 模型 。 其 中 随机 变量 对 应 着 
图 中 的 相互 作用 的 结 点 。 与 有 向 模型 相同 的 是 ， 如 果 在 无 向 模型 中 的 两 个 结 点 通过 
一 条 边 相 连接 ,那么 对 应 这 些 结 点 的 随机 变量 相互 之 间 是 直接 作用 的 。 不 同 于 有 向 
模型 ， 在 无 癌 模 型 中 的 边 是 没有 方向 的 ， 并 不 与 一 个 条 件 分 布 相关 联 。 

我 们 把 对 应 你 健康 状况 的 随机 变量 记 作 hy ， 对 应 你 的 室友 健康 状况 的 随机 变量 
记 作 hp， 你 的 同事 健康 的 变量 记 作 ho。 图 16.3 表示 这 种 关系 。 

正式 地 说 ， 一 个 无 向 模型 是 一 个 定义 在 无 向 模型 9 上 的 结构 化 概率 模型 。 对 于 
图 中 的 每 一 个 团 3 C, 一 个 因子 (factor) $(C)( 也 称 为 团 势 能 (clique potential ) ), 


3 图 的 一 个 团 是 图 中 结 点 的 一 个 子 集 ， 并 且 其 中 的 点 是 全 连接 的 
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图 16.3: 表示 你 室友 健康 状况 的 hv 、 你 健康 状况 的 hy 和 你 同事 健康 状况 的 he 之 间 如 何 相互 影响 
的 一 个 无 向 图 。 你 和 你 的 室友 可 能 会 相互 传染 感冒 ， 你 和 你 的 同事 之 间 也 是 如 此 ， 但 是 假设 你 室 
友和 同事 之 间 相 互 不 认识 ， 他 们 只 能 通过 你 来 间接 传染 。 

































































衡量 了 团 中 变量 每 一 种 可 能 的 联合 状态 所 对 应 的 密切 程度 。 这 些 因 子 都 被 限制 为 是 
非 负 的 。 它 们 一 起 定义 了 未 归 一 化 概率 函数 (unnormalized probability function ): 
p(x) = [[ «o. (16.3) 
CEG 
只 要 所 有 团 中 的 结 点 数 都 不 大 ， 那 么 我 们 就 能 够 高 效 地 处 理 这 些 未 归 一 化 概率 
图 数 。 它 包含 了 这 样 的 思想 ， 密 切 度 越 高 的 状态 有 越 大 的 概率 。 然 而 ,不 像 贝 叶 斯 网 
络 ， 几 乎 不 存在 团 定 义 的 结构 ， 所 以 不 能 保证 把 它们 乘 在 一 起 能 够 得 到 一 个 有 效 的 
概率 分 布 。 图 16.4 展示 了 一 个 从 无 向 模型 中 读 取 分 解 信息 的 例子 。 


图 164: ”这 个 图 说 明 通 过 选择 适当 的 办 MR pabcden 可 以 写作 
z Gao (a, b)@p,c(b, c) Ga, (a, d)óv,«(b, e)ġe r(e, f) « 





在 你 、 你 的 室友 和 同事 之 间 感 冒 传染 的 例子 中 包含 了 两 个 团 。 一 个 团 包 含 了 hy 
和 he。 这 个 团 的 因子 可 以 通过 一 个 表 来 定义 ， 可 能 取 到 下 面 的 值 : 

状态 为 1 代表 了 健康 的 状态 ， 相 对 的 状态 为 0 则 表示 不 好 的 健康 状态 〈 即 感染 
了 感冒 )。 你 们 两 个 通常 都 是 健康 的 ， 所 以 对 应 的 状态 拥有 最 高 的 密切 程度 。 两 个 人 
中 只 有 一 个 人 是 生病 的 密切 程度 是 最 低 的 ， 因 为 这 是 一 个 很 罕见 的 状态 。 两 个 人 都 
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生病 的 状态 (通过 一 个 人 来 传染 给 了 男 一 个 人 ) 有 一 个 稍 高 的 密切 程度 ， 尽 管 仍然 
不 及 两 个 人 都 健康 的 密切 程度 。 
为 了 完整 地 定义 这 个 模型 ， 我 们 需要 对 包含 hy 和 hvr 的 团 定 义 类 似 的 因子 。 








16.2.3 ” 配 分 函数 


尽管 这 个 未 归 一 化 概率 函数 处 处 不 为 零 ， 我 们 仍然 无 法 保证 它 的 概率 之 和 或 者 
积分 为 1。 为 了 得 到 一 个 有 效 的 概率 分 布 , 我 们 需要 使 用 对 应 的 归 一 化 的 概率 分 布 “: 


p(x) = Late) (16.4) 
其 中 ，2 是 使 得 所 有 的 概率 之 和 或 者 积分 为 LR, HEWWE: 
f A (16.5) 


当 函 数 $ 固定 时 ， 我 们 可 以 把 Z GRESE (ER RR o 带 有 
参数 时 ， 那么 Z 是 这 些 参数 的 一 个 函数 。 在 相关 文献 中 为 了 节省 空间 忽略 控制 2 的 
变量 而 直接 写 2 是 一 个 常用 的 方式 。 归 一 化 常数 2 被 称 作 是 配 分 函数 ， 这 是 一 个 从 
统计 物理 学 中 借鉴 的 术语 。 

由 于 2 通常 是 由 对 所 有 可 能 的 x 状态 的 联合 分 布 空间 求 和 或 者 求 积 分 得 到 的 ， 
它 通常 是 很 难 计算 的 。 为 了 获得 一 个 无 向 模型 的 归 一 化 概率 分 布 ， 模 型 的 结构 和 函 
数 $ 的 定义 通常 需要 设计 为 有 助 于 高 效 地 计算 Z。 在 深度 学 习 中 ，2 通常 是 难以 处 
理 的 。 由 于 -难以 精确 地 计算 出 ， 我 们 只 能 使 用 一 些 近似 的 方法 。 这 样 的 近似 方法 
是 第 千 八 章 的 主要 内 容 。 

在 设计 无 向 模型 时 ， 我 们 必须 牢记 在 心 的 一 个 要 点 是 设 定 一 些 使 得 2 不 存在 
的 因子 也 是 有 可 能 的 。 当 模型 中 的 一 些 变 量 是 连续 的 ， 且 p 在 其 定义 域 上 的 积分 发 
散 时 这 种 情况 就 会 发 生 。 例 如 ， 当 我 们 需要 对 一 个 单独 的 标量 变量 x < R 建 模 ， 并 
且 单个 团 势 能 定义 为 9(z) = a? 时 。 在 这 种 情况 下 ， 




















Z- n (16.6) 


由 于 这 个 积分 是 发 散 的 ， 所 以 不 存在 一 个 对 应 着 这 个 势能 函数 ol) 的 概率 分 布 。 有 
时 候 o 函数 某 些 参数 的 选择 可 以 决定 相应 的 概率 分 布 是 否 能 够 被 定义 。 例 如 ， 对 o 


“一 个 通过 归 一 化 团 势 能 乘积 定义 的 分 布 也 被 称 作 是 吉 布 斯 分 布 ( Gibbs distribution ) 
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函数 olx; 6) = exp( 一 Bx?) 来 说 ,参数 6 决定 了 归 一 化 常数 2 是 否 存在 。 正 的 8 使 
得 o 函数 是 一 个 关于 x 的 高 斯 分 布 ， 但 是 非 正 的 参数 8 则 使 得 % 不 可 能 被 归 一 化 。 

有 向 建 模 和 无 向 建 模 之 间 一 个 重要 的 区 别 就 是 有 向 模型 是 通过 从 起 始点 的 概率 
分 布 直接 定义 的 ， 反 之 无 向 模型 的 定义 显得 更 加 宽松 ,通过 o 函数 转化 为 概率 分 布 
而 定义 。 这 改变 了 我 们 处 理 这 些 建 模 问 题 的 直觉 。 当 我 们 处 理 无 向 模型 时 需要 牢记 
一 点 ， 每 一 个 变量 的 定义 域 对 于 一 系列 给 定 的 $ 函数 所 对 应 的 概率 分 布 有 着 重要 的 
影响 。 举 个 例子 ,我 们 考虑 一 个 n 维 向 量 的 随机 变量 x 以 及 一 个 由 偏 置 向 量 b 参数 
化 的 无 向 模型 。 假 设 x 的 每 一 个 元 素 对 应 着 一 个 团 ， 并 且 满 足 6 (x;) = exp(bix;)- 
在 这 种 情况 下 概率 分 布 是 怎样 的 呢 ? 答案 是 我 们 无 法 确定 ， 因 为 我 们 并 没有 指定 x 
的 定义 域 。 如 果 x 满足 x ER, 那么 有 关 归 一 化 常数 2 的 积分 是 发 散 的 ， 这 导 
致 了 对 应 的 概率 分 布 是 不 存在 的 。 如 果 x € {0,1}", BBA p(x) 可 以 被 分 解 成 n 个 
独立 的 分 布 ， 并 且 满 足 p(x; = 1) = sigmoid(b;)。 如 果 x 的 定义 域 是 基本 单位 向 量 
({[1,0,...,0],[0,1,...,0],...,[0,0,...,1)}) 的 集合 ,那么 p(x) = softmax(5)， 因 此 
对 于 ji, 一 个 较 大 的 b; 的 值 会 降低 所 有 p(x; = 1) 的 概率 。 通 常情 况 下 ， 通 过 仔 
细 选 择 变量 的 定义 域 ， 能 够 从 一 个 相对 简单 的 o. 函数 的 集合 可 以 获得 一 个 相对 复杂 
的 表达 。 我 们 会 在 第 20.6 节 中 讨论 这 个 想法 的 实际 应 用 。 








16.2.4 ”基于 能 量 的 模型 


无 向 模型 中 许多 有 趣 的 理论 结果 都 依赖 于 Va, pæ) > 0 这 个 假设 。 使 这 个 条 件 
满足 的 一 种 简单 方式 是 使 用 基于 能 量 的 模型 Energy-based model, EBM )， 其 中 





p(x) = exp(— E(x)), (16.7) 


E(x) 被 称 作 是 能 量 函 数 (energy function )。 对 所 有 的 z，exp(z) 都 是 正 的 ， 这 保证 
了 没有 一 个 能 量 孔 数 会 使 得 某 一 个 状态 x 的 概率 为 0。 我 们 可 以 完全 自由 地 选择 那 
些 能 够 简化 学 习 过 程 的 能 量 函 数 。 如 果 我 们 直接 学 习 各 个 团 势 能 ， 我 们 需要 利用 约 
束 优化 方法 来 任意 地 指定 一 些 特 定 的 最 小 概率 值 。 学 习 能 量 函 数 的 过 程 中 ， 我 们 可 
以 采用 无 约束 的 优化 方法 5。 基 于 能 量 的 模型 中 的 概率 可 以 无 限 趋 近 于 0 但 是 永远 达 
不 到 0。 

服从 式 (16.7) 形 式 的 任意 分 布 都 是 玻 尔 兹 曼 分 布 (Boltzmann distribution ) 
的 一 个 实例 。 正 是 基于 这 个 原因 ， 我们 把 许多 基于 能 量 的 模型 称 为 玻 尔 兹 曼 机 

5 对 于 某 些 模 型 ， 我 们 可 以 仍然 使 用 约束 优化 方法 来 确保 Z 存在 。 
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(Boltzmann Machine) (Fahlman et al., 1983; Ackley et aL, 1985; Hinton et al., 
1984a; Hinton and Sejnowski, 1986)。 关 于 什么 时 候 称 之 为 基于 能 量 的 模型 ， 什 么 时 
候 称 之 为 玻 尔 效 曼 机 不 存在 一 个 公认 的 判别 标准 。 一 开始 玻 尔 效 曼 机 这 个 术语 是 用 
来 描述 一 个 只 有 二 值 变量 的 模型 ， 但 是 如 今 许 多 模型 ， 比 如 均值 - 协 方差 RBM, 也 
涉及 到 了 实 值 变 量 。 虽 然 玻 尔 效 曼 机 最 初 的 定义 既 可 以 包含 潜 变 量 也 可 以 不 包含 潜 
变量 ,但 是 时 至 今日 玻 尔 兹 曼 机 这 个 术语 通常 用 于 指 拥 有 洪 变 量 的 模型 ， 而 没有 洪 
变量 的 玻 尔 兹 曼 机 则 经 常 被 称 为 马尔 可 夫 随 机 场 或 对 数 线性 模型 。 

无 向 模型 中 的 团 对 应 于 未 归 一 化 概率 函数 中 的 因子 。 通过 expla +b) = 
exp(a) exp(b)， 我 们 发 现 无 向 模型 中 的 不 同 团 对 应 于 能 晤 函数 的 不 同 项 。 换 句 话说 ， 
基于 能 量 的 模型 只 是 一 种 特殊 的 马尔 可 夫 网 络 : 求 需 使 能 量 函 数 中 的 每 个 项 对 应 
于 不 同 团 的 一 个 因子 。 关 于 如 何 从 无 向 模型 结构 中 获得 能 量 函 数 形式 的 示例 可 以 参 
考 图 16.5 。 人 们 可 以 将 能 量 函 数 中 带 有 多 个 项 的 基于 能 量 的 模型 视 作 是 专家 之 积 
(product of expert ) (Hinton, 1999). EE KŽP AY RE— 3906] JV FJ Je BEA 2) P K 
一 个 因子 。 能 量 函 数 中 的 每 一 项 都 可 以 看 作 决定 一 个 特定 的 软 约 束 是 否 能 够 满足 的 
“专家 "”。 每 个 专家 只 执行 一 个 约束 ， 而 这 个 约束 仅仅 涉及 随机 变量 的 一 个 低 维 投影 ， 
但 是 当 其 结合 概率 的 乘法 时 ， 专 家 们 一 同 构造 了 复杂 的 高 维 约束 。 


图 16.5: 这 个 图 说 明 通 过 为 每 个 团 选择 适当 的 能 量 函 数 E(a, b,c, d,e, f) 可 以 写作 Ea pla, b) + 


Ev,c(b, c¢) + Ea ala, d) + Ey. (b, e) t E.(e, f)« 值得 注意 的 是 ， 我 们 令 [o 等 于 对 应 负 能 量 的 指数 ， 
可 以 获得 图 16.4 中 的 o PER, LEM, ġa b(a, b) = exp( 一 已 (a,b))。 



































基于 能 量 的 模型 定义 的 一 部 分 无 法 用 机 器 学 习 观 点 来 解释 : 即 式 (16.7) 中 的 “-” 
符号 。 这 个 “-” 符 号 可 以 被 包含 在 E 的 定义 之 中 。 对 于 很 多 E 函数 的 选择 来 说 ， 学 
习 算 法 可 以 自由 地 决定 能 量 的 符号 。 这 个 负 号 的 存在 主要 是 为 了 保持 机 器 学 习 文 献 
和 物理 学 文献 之 间 的 兼容 性 。 概 率 建 模 的 许多 研究 最 初 都 是 由 统计 物理 学 家 做 出 的 ， 
其 中 OE 是 指 实际 的 、 物 理 概念 的 能 量 ,， 没 有 任何 符号 。 诸 如 “能 量 ” 和 “ 配 分 函数 ” 
这 类 术语 仍然 与 这 些 技术 相关 联 ， 尽 管 它们 的 数学 适用 性 比 在 物理 中 更 宽 。 一 些 机 
器 学 习 研 究 者 〈 例 如 ，Smolensky (1986) 将 负 能 量 称 为 harmony (harmony ) ) 发 
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出 了 不 同 的 声音 ， 但 这 些 都 不 是 标准 惯例 。 

许多 对 概率 模型 进行 操作 的 算法 不 需要 计算 pnoasa(m， 而 只 需要 计算 
log Pmodal(X)。 对 于 具有 潜 变 量 h 的 基于 能 量 的 模型 ， 这 些 算法 有 时 会 将 该 量 的 负数 
称 为 自由 能 (free energy ): 








F(x) = — log > exp(— E(z, h)). (16.8) 


在 本 书 中 ， 我 们 更 倾向 于 更 为 通用 的 基于 log Pmoaei(a) 的 定义 。 


16.2.5 DAM d- 分 离 


图 模型 中 的 边 告诉 我 们 哪些 变量 直接 相互 作用 。 我 们 经 常 需要 知道 哪些 变量 间 
接 相 互 作用 。 某 些 间接 相互 作用 可 以 通过 观察 其 他 变量 来 启用 或 禁用 。 更 正式 地 , 我 
们 想 知道 在 给 定 其 他 变量 子 集 的 值 时 ， 哪 些 变 量子 集 彼此 条 件 独 立 。 

在 无 向 模型 中 ,识别 图 中 的 条 件 独立 性 是 非常 简单 的 。 在 这 种 情况 下 ， 图 中 隐 
含 的 条 件 独立 性 称 为 分 离 ( separation )。 如 果 图 结构 显示 给 定 变量 集 S 的 情况 下 变 
ER A 与 变量 集 BER, 那么 我 们 声称 给 定 变 量 集 S 时 ， 变 量 集 A 与 男 一 组 变量 
集 BB 是 分 离 的 。 如 果 连 接 两 个 变量 a 和 b 的 连接 路 径 仅 涉及 未 观察 变量 ， 那 么 这 些 
变量 不 是 分 离 的 。 如 果 它 们 之 间 没 有 路 径 ， 或 者 所 有 路 径 都 包含 可 观测 的 变量 ， 那 
么 它们 是 分 离 的 。 我 们 认为 仅 涉 及 未 观察 到 的 变量 的 路 径 是 “活跃 ”的 ， 而 包括 可 观 
察 变量 的 路 径 称 为 “ 非 活跃 ”的 。 

当 我 们 画图 时 ， 我 们 可 以 通过 加 阴影 来 表示 观察 到 的 变量 。 图 16.6 用 于 描述 当 
以 这 种 方式 绘图 时 无 向 模型 中 的 活 贱 和 非 活跃 路 径 的 样子 。 图 16.7 描 述 了 一 个 从 无 
向 模型 中 读 取 分 离 信息 的 例子 。 


(a) (b) 


图 16.6: (a) 随机 变量 a 和 随机 变量 b 之 间 穿 过 s 的 路 径 是 活跃 的 ， 因 为 s 是 观察 不 到 的 。 这 意 
RE a, b 之 间 不 是 分 离 的 。(b) 图 中 s 用 阴影 填充 ， 表示 它 是 可 观察 的 。 因 为 a 和 b 之 间 的 唯 
路 径 通过 s， 并 且 这 条 路 径 是 不 活跃 的 ， 我 们 可 以 得 出 结论 ， 在 给 定 s 的 条 件 下 a 和 b 是 分 离 的 。 
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图 16.7: 从 一 个 无 向 图 中 读 取 分 离 性 质 的 一 个 例子 。 这 里 b 用 阴影 填充 , 表示 它 是 可 观察 的 。 由 于 
b 挡住 了 从 a 到 c 的 唯一 路 径 ， 我 们 说 在 给 定 b 的 情况 下 a 和 c 是 相互 分 离 的 。 观察 值 b 同样 
挡住 了 从 a 到 d 的 一 条 路 径 ， 但 是 它们 之 间 有 另 一 条 活跃 路 径 。 因 此 给 定 b 的 情况 下 a 和 d 不 
是 分 离 的 。 
































类 似 的 概念 适用 于 有 向 模型 ， 只 是 在 有 向 模型 中 ， 这 些 概 念 被 称 为 d- 分 离 ( d- 
separation), “d” 代表 “依赖 ”的 意思 。 有 癌 图 中 d 分 离 的 定义 与 无 向 模型 中 分 离 的 
定义 相同 : 如 果 图 结构 显示 给 定 变量 集 SI, TER A 与 变量 集 BIG, 那么 我 们 
认为 给 定 变 量 集 $ 时 ， 变 量 集 A d- 分 离 于 变量 集 B. 

与 无 向 模 型 一 样 ， 我 们 可 以 通过 查看 图 中 存在 的 活跃 路 径 来 检查 图 中 隐 售 的 独 
立 性 。 如 前 所 述 ， 如 果 两 个 变量 之 间 存 在 活跃 路 径 ， 则 两 个 变量 是 依赖 的 ， 如 果 没 
有 活跃 路 径 ， 则 为 qd- 分离 。 在 有 回 网 络 中 ， 确 定 路 径 是 否 活跃 有 点 复杂 。 关 于 在 有 问 
模型 中 识别 活跃 路 径 的 方法 可 以 参考 图 16.8 。 图 16.9 是 从 一 个 图 中 读 取 一 些 属性 的 
例子 。 

尤其 重要 的 是 要 记 住 分 离 和 d- 分 离 只 能 告诉 我 们 图 中 人 隐 含 的 条 件 独立 性 。 图 并 
不 需要 表示 所 有 存在 的 独立 性 。 进一步 的 , 使 用 完全 图 ( 具有 所 有 可 能 的 边 的 图 ) 来 
表示 任何 分 布 总 是 合法 的 。 事 实 上 ,一些 分 布 包 含 不 可 能 用 现 有 图 形 符号 表示 的 独 
立 性 。 特定 环境 下 的 独立 (context-specific independences ) 指 的 是 取决 于 网 络 中 一 
些 变量 值 的 独立 性 。 例 如 ， 考 虑 三 个 二 值 变 量 的 模型 : a，b Alco 假设 当 a 是 0 时 ， 
b 和 c 是 独立 的 , 但 是 当 a 是 1 时，b 确定 地 等 于 c。 当 a = 1 时 图 模型 需要 连接 b 
和 c 的 边 。 但 是 图 不 能 说 明 当 a = 0 时 b 和 c 不 是 独立 的 。 

一 般 来 说 ， 当 独立 性 不 存在 时 ， 图 不 会 显示 独立 性 。 然 而 ,图 可 能 无 法 编码 独立 























Lo 
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图 16.8: 两 个 随机 变量 a, b 之 间 存 在 的 长 度 为 2 的 所 有 种 类 的 活跃 路 径 。(a) 箭头 方向 从 a 指向 
b 的 任何 路 径 ， 反 过 来 也 一 样 。 如 果 s 可 以 被 观察 到 ， 这 种 路 径 就 是 阻塞 的 。 在 接力 赛 的 例子 中 ， 
我 们 已 经 看 到 过 这 种 类 型 的 路 径 。(b) 变量 a 和 b 通过 共 因 s 相连 。 举 个 例子 ,假设 s 是 一 个 表 
示 是 否 存在 飓风 的 变量 ，a 和 b 表示 两 个 相 邻 气象 监控 区 域 的 风速 。 如 果 我 们 在 a 处 观察 到 很 高 
的 风速 ,我 们 可 以 期 望 在 5 处 也 观察 到 高 速 的 风 。 如 果 观 察 到 s， 那 么 这 条 路 径 就 被 阻塞 了 。 如 果 
我 们 已 经 知道 存在 朵 风 ， 那 么 无 论 a 处 观察 到 什么 ， 我 们 都 能 期 望 b 处 有 较 高 的 风速 。 在 a 处 观 
察 到 一 个 低 于 预期 的 风速 ( 对 飓风 而 言 ) 并 不 会 改变 我 们 对 b 处 风速 的 期 望 EA RU 
下 )。 然 而 ， 如 果 s 不 被 观测 到 ， 那 么 a 和 b 是 依赖 的 ， 即 路 径 是 活跃 的 。(c) 变量 a 和 b 都 是 
s 的 父 节点 。 这 称 为 V- 结 构 ( V-structure ) 或 者 碰撞 情况 (the collider case )。 根 据 相 消 解释 作 
用 (explaining away effect )，V- 结 构 导 致 a I b 是 相关 的 。 在 这 种 情况 下 ， 当 s 被 观测 到 时 路 径 
是 活跃 的 。 举 个 例子 ,假设 s 是 一 个 表示 你 的 同事 不 在 工作 的 变量 。 变 量 a 表示 她 生病 了 ， 而 变 
d b 表示 她 在 休假 。 如 果 你 观察 到 了 她 不 在 工作 ， 你 可 以 假设 她 很 有 可 能 是 生病 了 或 者 是 在 度假 ， 
但 是 这 两 件 事 同 时 发 生 是 不 太 可 能 的 。 如 果 你 发 现 她 在 休假 ， 那 么 这 个 事实 足够 解释 她 的 缺席 了 。 
你 可 以 推断 她 很 可 能 没有 生病 。(d) 即使 s 的 任意 后 代 都 被 观察 到 ， 相 消解 释 作 用 也 会 起 作用 。 举 
个 例子 ,假设 c 是 一 个 表示 你 是 否 收 到 你 同事 的 报告 的 一 个 变量 。 如 果 你 注意 到 你 还 没有 收 到 这 
个 报告 ， 这 会 增加 你 估计 的 她 今天 不 在 工作 的 概率 ， 这 反 过 来 又 会 增加 她 今天 生病 或 者 度假 的 概 
率 。 阻 塞 V- 结 构 中 路 径 的 唯一 方法 就 是 共享 子 节点 的 后 代 一 个 都 观察 不 到 。 
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图 16.9: 从 这 张 图 中 ,9 


给 定 c 的 | 


给 定 c II 





a 和 e 是 d- 分 离 的 。 
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我 们 还 可 以 发 现 当 我 1 








e 给 定 c 的 ' 


P. d fI e 是 d- 分 离 的 。 


门 观察 到 一 些 变量 时 ， 一 些 
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变量 不 再 


4 











青 况 ] 


F, a 和 b 不 是 d- 分 离 的 。 


e 给 定 d 的 情况 下 ，a 和 b 不 是 d- 分 离 的 。 


16.2.6 ”在 有 向 模型 和 无 向 模型 中 转换 
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我 们 可 以 发 现 一 些 d- 分 离 的 性 质 。 这 包括 了 : 
给 定 空 集 的 情况 下 ，a 和 b 是 d- 分 离 的 。 
青 况 下 ， 


是 d- 分 离 的 : 


我 们 经 常 将 特定 的 机 器 学 习 模 型 称 为 无 向 模型 或 有 向 模型 。 例 如 , 我 们 通常 将 受 
限 玻 尔 兹 曼 机 称 为 无 向 模型 ， 而 稀 玻 编码 则 被 称 为 有 向 模型 。 这 种 措 梧 的 选择 可 能 
有 点 误导 ， 因 为 没有 概率 模型 本 质 上 是 有 向 或 无 向 的 。 但 是 ， 一 些 模型 很 适合 使 用 
有 向 图 描述 ， 而 另 一 些 模型 很 适合 使 用 无 向 模型 描述 。 

有 向 模型 和 无 向 模型 都 有 其 优点 和 缺点 。 这 两 种 方法 都 不 是 明显 优越 和 普遍 优 
选 的 。 相 反 ， 我 们 根据 具体 的 每 个 任务 来 决定 使 用 哪 一 种 模型 。 这 个 选择 部 分 取决 
于 我 们 希望 描述 的 概率 分 布 。 根 据 哪 种 方法 可 以 最 大 程度 地 捕捉 到 概率 分 布 中 的 独 
立 性 ,或 者 哪 种 方法 使 用 最 少 的 边 来 描述 分 布 ， 我 们 可 以 决定 使 用 有 向 建 模 还 是 无 
问 建 模 。 还 有 其 他 因素 可 以 影响 我 们 决定 使 用 哪 种 建 模 方式 。 即 使 在 使 用 单个 概率 
分 布 时 ， 我 们 有 时 也 可 以 在 不 同 的 建 模 方式 之 间 切 换 。 有 时 ， 如 果 我 们 观察 到 变量 
的 某 个 子 集 ， 或 者 如 果 我 们 和 希望 执行 不 同 的 计算 任务 ， 换 一 种 建 模 方式 可 能 更 合适 。 
例如 ， 有 向 模型 通常 提供 了 一 种 高 效 地 从 模型 中 抽取 样本 (在 第 16.3 方 中 描述 ) 的 
直接 方法 。 而 无 向 模型 形式 通常 对 于 推导 近似 推断 过 程 ( 我 们 将 在 第 十 九 章 中 看 到 ， 


式 (19.56) 强调 了 无 向 模型 的 作用 ) 是 很 有 用 的 。 
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每 个 概率 分 布 可 以 由 有 向 模型 或 由 无 向 模型 表示 。 在 最 坏 的 情况 下 ， 我 们 可 以 
使 用 “完全 图 ”来 表示 任何 分 布 。 在 有 向 模型 的 情况 下 ， 完 全 图 是 任意 有 向 无 环 图 ， 
其 中 我 们 对 随机 变量 排序 ， 并 且 每 个 变量 在 排序 中 位 于 其 之 前 的 所 有 其 他 变量 作为 
其 图 中 的 祖先 。 对 于 无 向 模型 ， 完 全 图 只 是 包含 所 有 变量 的 单个 团 。 图 16.10 给 出 了 
一 个 实例 。 














图 16.10: 完全 图 的 例子 ， 完 全 图 能 够 描述 任何 的 概率 分 布 。 这 里 我 们 展示 了 一 个 带 有 四 个 随机 变 
量 的 例子 。( 左 ) 完全 无 向 图 。 在 无 向 图 中 ， 完 全 图 是 唯一 的 。( 右 ) 一 个 完全 有 向 图 。 在 有 向 图 中 ， 
不 存在 唯一 的 完全 图 。 我 们 选择 一 种 变量 的 排序 ， 然 后 对 每 一 个 变量 ， 从 它 本 身 开始 ， 向 每 一 个 
向 顺序 在 其 后 面 的 变量 画 一 条 弧 。 因 此 存在 着 关于 变量 数 阶 乘 数量 级 的 不 同 种 完全 图 。 在 这 个 
例子 中 ,我 们 从 左 到 右 从 上 到 下 地 排序 变量 。 































































































当然 , 图 模型 的 优势 在 于 图 能 够 包含 一 些 变量 不 直接 相互 作用 的 信息 。 完全 图 并 
不 是 很 有 用 ， 因 为 它 并 不 隐 含 任何 独立 性 。 

当 我 们 用 图 表示 概率 分 布 时 ， 我 们 想 要 选择 一 个 包含 尽 可 能 多 独立 性 的 图 ， 但 
是 并 不 会 假设 任何 实际 上 不 存在 的 独立 性 。 

从 这 个 角度 来 看 ， 一 些 分 布 可 以 使 用 有 向 模型 更 高 效 地 表示 ， 而 其 他 分 布 可 以 
使 用 无 向 模型 更 高 效 地 表示 。 换 句 话 说 ， 有 向 模型 可 以 编码 一 些 无 向 模型 所 不 能 编 
码 的 独立 性 ， 反 之 亦 然 。 

有 向 模 型 能 够 使 用 一 种 无 向 模型 无 法 完美 表示 的 特定 类 型 的 子 结构 。 这 个 子 结 
构 被 称 为 不 道德 (immorality )。 这 种 结构 出 现在 当 两 个 随机 变量 a 和 b 都 是 第 三 个 
随机 变量 c 的 父 结 点 ， 并 且 不 存在 任 一 方向 上 直接 连接 a 和 b 的 边 时 。 (“不 道德 ” 
的 名 字 可 能 看 起 来 很 奇怪 ; 它 在 图 模型 文献 中 使 用 源 于 一 个 关于 未 婚 父 母 的 笑话 。) 
为 了 将 有 向 模型 图 D 转换 为 无 向 模型 ， 我 们 需要 创建 一 个 新 图 MW。 对 于 每 对 变量 x 
和 y， 如 果 存 在 连接 D 中 的 x 和 y 的 有 向 边 (在 任 一 方向 上 ), 或 者 如 果 x 和 y 都 
是 图 D 中 男 一 个 变量 z 的 父 节 点 ， 则 在 WU 中 添加 连接 x 和 y 的 无 向 边 。 得 到 的 图 
U 被 称 为 是 道德 图 ( moralized graph )。 关 于 一 个 通过 道德 化 将 有 向 图 模型 转化 为 无 
向 模型 的 例子 可 以 参考 网 16.11 。 
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图 16.11: 通过 构造 道德 图 将 有 向 模型 (上 一 行 ) 转化 为 无 向 模型 (下 一 行 ) 的 例子 。( 左 ) 只 需要 
把 有 向 边 替换 成 无 咎 边 就 可 以 把 这 个 简单 的 链 转化 为 一 个 道德 图 。 得 到 的 无 向 模型 包含 了 完全 相 
同 的 独立 关系 和 条 件 独 立 关系 。( 中 ) 这 个 图 是 在 不 丢失 独立 性 的 情况 下 是 无 法 转化 为 无 向 模型 的 
最 简单 的 有 向 模型 。 这 个 图 包含 了 单个 完整 的 不 道德 结构 。 因 为 a 和 b 都 是 c 的 父 节 点 ， 当 c 被 
观察 到 时 ， 它 们 之 间 通 过 活跃 路 径 相 连 。 为 了 捕捉 这 个 依赖 ， 无 向 模型 必须 包含 一 个 含有 所 有 三 
个 变量 的 团 。 这 个 团 无 法 编码 a L b 这 个 信息 。( 右 ) 一 般 来 说 ， 道 德 化 的 过 程 会 给 图 添加 许多 边 ， 
因此 丢失 了 一 些 隐 含 的 独立 性 。 举 个 例子 ， 这 个 稀 琉 编码 图 需要 在 每 一 对 隐藏 单元 之 间 添 加 道德 
化 的 边 ， 因 此 也 引入 了 二 次 数量 级 的 新 的 直接 依赖 。 
















































































同样 的 , 无 向 模型 可 以 包括 有 向 模型 不 能 完美 表示 的 子 结构 。 上 具体 来 说 ,如果 U 
包含 长 度 大 于 3 的 环 (loop )， 则 有 向 图 D 不 能 捕获 无 向 模型 U 所 包含 的 所 有 条 件 
独立 性 ， 除 非 该 环 还 包含 弦 (chord )。 环 指 的 是 由 无 向 边 连接 的 变量 序列 ， 并 且 满 
足 序列 中 的 最 后 一 个 变量 连接 回 序 列 中 的 第 一 个 变量 。 弦 是 定义 环 序列 中 任意 两 个 
非 连续 变量 之 间 的 连接 。 如 果 U 具有 长 度 为 4 或 更 大 的 环 ， 并 且 这 些 环 没有 弦 ， 我 
们 必须 在 将 它们 转换 为 有 向 模型 之 前 添加 弦 。 添 加 这 些 弦 会 丢弃 在 M 中 编码 的 一 些 
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独立 信息 。 通 过 将 弱 添 加 到 U 形成 的 图 被 称 为 弦 图 (chordal graph ) 或 者 三 角形 化 
图 (triangulated graph )， 因 为 我 们 现在 可 以 用 更 小 的 、 三 角 的 环 来 描述 所 有 的 环 。 
ZW IK AEA IAL D， 我 们 还 需要 为 边 指定 方向 。 当 这 样 做 时 ， 我 们 不 能 在 D 中 
创建 有 向 循环 ， 否 则 将 无 法 定义 有 效 的 有 向 概率 模型 。 为 D 中 的 边 分 配方 向 的 一 种 
方法 是 对 随机 变量 排序 ， 然 后 将 每 个 边 从 排序 较 早 的 节点 指向 排序 稍 后 的 节点 。 一 
个 简单 的 实例 可 以 参考 图 16.12 。 
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图 16.12: 将 一 个 无 向 模型 转化 为 一 个 有 向 模型 。( 左 ) 这 个 无 向 模型 无 法 转化 为 有 向 模型 ， 因 为 它 
有 一 个 长 度 为 4 且 不 带 有 弦 的 环 。 有 具体 说 来 ， 这 个 无 向 模型 包含 了 两 种 不 同 的 独立 性 ， 并 且 不 存 
在 一 个 有 向 模型 可 以 同时 描述 这 两 种 性 质 : a Lc | {b,d} Mbd] {a,c} CP) 为 了 将 无 向 图 
转化 为 有 向 图 ， 我 们 必须 通过 保证 所 有 长 度 大 于 3 的 环 都 有 弦 来 三 角形 化 图 。 为 了 实现 这 个 目标 ， 
我 们 可 以 加 一 条 连接 a 和 c 或 者 连接 b 和 d 的 边 。 在 这 个 例子 中 ， 我 们 选择 添加 一 条 连接 a M c 
的 边 。( 右 ) 为 了 完成 转化 的 过 程 ， 我 们 必须 给 每 条 边 分 配 一 个 方向 。 执 行 这 个 任务 时 ， 我 们 必须 
保证 不 产生 任何 有 向 环 。 避 免 出 现 有 向 环 的 一 种 方法 是 赋予 节点 一 定 的 顺序 ， 然 后 将 每 个 边 从 排 
序 较 早 的 节点 指向 排序 稍 后 的 节点 。 在 这 个 例子 中 ,我 们 根据 变量 名 的 字母 进行 排序 。 




































































16.2.7 AFA 


因子 图 (factor graph ) 是 从 无 向 模型 中 抽样 的 另 一 种 方法 ， 它 可 以 解决 标准 无 
向 模型 语法 中 图 表达 的 模糊 性 。 在 无 向 模型 中 ， 每 个 $ 函数 的 范围 必须 是 图 中 某 
个 团 的 子 集 。 我 们 无 法 确定 每 一 个 团 是 否 含有 一 个 作用 域 包含 整 个 团 的 因子 一 一 比 
如 说 一 个 包含 三 个 结 点 的 团 可 能 对 应 的 是 一 个 有 三 个 结 点 的 因子 ， 也 可 能 对 应 的 是 
三 个 因子 并 且 每 个 因子 包含 了 一 对 结 点 ， 这 通常 会 导致 模糊 性 。 通 过 显 式 地 表示 每 
一 个 乡 函 数 的 作用 域 , 因子 图 解决 了 这 种 模糊 性 。 具体 来 说 , 因子 图 是 一 个 包含 无 向 
二 分 图 的 无 向 模型 的 图 形 化 表示 。 一 些 节 点 被 绘制 为 圆 形 。 就 像 在 标准 无 向 模型 中 
一 样 ， 这 些 节点 对 应 于 随机 变量 。 其 余 节 点 绘制 为 方块 。 这 些 节点 对 应 于 未 归 一 化 
概率 函数 的 因子 %。 变 量 和 因子 可 以 通过 无 向 边 连 接 。 当 且 仅 当 变量 包含 在 未 归 一 
化 概率 函数 的 因子 中 时 ， 变 量 和 因子 在 图 中 存在 连接 。 没 有 因子 可 以 连接 到 图 中 的 
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另 一 个 因子 ， 也 不 能 将 变量 连接 到 变量 。 图 16.2.7 给 出 了 一 个 例子 来 说 明 因子 图 如 
何 解决 无 向 网 络 中 的 模糊 性 。 


ep 
Oo © 


图 16.13: 因子 图 如 何 解决 无 向 网 络 中 的 模糊 性 的 一 个 例子 。( 左 ) 一 个 包含 三 个 变量 (a、b 和 c) 
的 团 组 成 的 无 向 网 络 。( 中 ) 对 应 这 个 无 向 模型 的 因子 图 。 这 个 因子 图 有 一 个 包含 三 个 变量 的 因子 。 
(E) 对 应 这 个 无 向 模型 的 另 一 种 有 效 的 因子 图 。 这 个 因子 图 包含 了 三 个 因子 ， 每 个 因子 只 对 应 两 
个 变量 。 即 使 它们 表示 的 是 同一 个 无 向 模型 ， 这 个 因子 图 上 进行 的 表示 、 推 断 和 学 习 相 比 于 中 图 


描述 的 因子 图 都 要 渐 近 地 廉价 。 






























































16.3 ”从 图 模型 中 采样 


图 模型 同样 简化 了 从 模型 中 采样 的 过 程 。 

有 向 图 模型 的 一 个 优点 是 ， 可 以 通过 一 个 简单 高 效 的 过 程 从 模型 所 表示 的 联合 
分 布 中 产生 样本 ， 这 个 过 程 被 称 为 原始 采样 ( Ancestral Sampling )。 

原始 采样 的 基本 思想 是 将 图 中 的 变量 x; 使 用 拓扑 排序 , 使 得 对 于 所 有 i 和 7, 如 
AR ox; 是 x; 的 一 个 父亲 结 点 ,， 则 7 大 于 do 然后 可 以 按 此 顺序 对 变量 进行 采样 。 换 句 
话说 ， 我 们 可 以 首先 采 xı ~ Phx), WER x: ~ P(x | Pao (x2))， 以 此 类 推 ， 直 到 
最 后 我 们 从 P(x, | Pag(Xn)) 中 采样 。 只 要 不 难 从 每 个 条 件 分 布 x; ~ P(x; | Pag(x;)) 
中 采样 ， 那 么 从 整个 模型 中 采样 也 是 容易 的 。 拓 扑 排序 操作 保证 我 们 可 以 按照 
x (16.1) 中 条 件 分 布 的 顺序 依次 采样 。 如 果 没 有 拓扑 排序 ， 我 们 可 能 会 在 其 父 节 点 
可 用 之 前 试图 对 该 变量 进行 抽样 。 

有 些 图 可 能 存在 多 个 拓扑 排序 。 原 始 采 样 可 以 使 用 这 些 拓扑 排序 中 的 任何 一 个 。 

原始 采样 通常 非常 快 (假设 从 每 个 条 件 分 布 中 采样 都 是 很 容易 的 ) 并 且 非 常 简 
便 。 

原始 采样 的 一 个 缺点 是 其 仅 适 用 于 有 向 图 模型 。 另 一 个 缺点 是 它 并 不 是 每 次 采 
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样 都 是 条 件 采 样 操作 。 当 我 们 希望 从 有 向 图 模型 中 变量 的 子 集 中 采样 时 ， 给 定 一 些 
其 他 变量 ， 我 们 经 常 要求 所 有 给 定 的 条 件 变量 在 顺序 图 中 比 要 采样 的 变量 的 顺序 要 
早 。 在 这 种 情况 下 ,我 们 可 以 从 模型 分 布 指定 的 局 部 条 件 概率 分 布 中 采样 。 否则 ,我 
们 需要 采样 的 条 件 分 布 是 给 定 观测 变量 的 后 验 分 布 。 这 些 后 验 分 布 在 模型 中 通常 没 
有 明确 指定 和 参数 化 。 推 断 这 些 后 验 分 布 的 代价 可 能 是 很 高 的 。 在 这 种 情况 下 的 模 
型 中 ， 原 始 采样 不 再 有 效 。 

不 幸 的 是 ， 原 始 采样 仅 适 用 于 有 向 模型 。 我 们 可 以 通过 将 无 向 模型 转换 为 有 向 
模型 来 实现 从 无 向 模型 中 抽样 ， 但 是 这 通常 需要 解决 环 手 的 推断 问题 (要 确定 新 有 
向 图 的 根 节点 上 的 边缘 分 布 )， 或 者 需要 引入 许多 边 从 而 会 使 得 到 的 有 向 模型 变 得 难 
以 处 理 。 从 无 向 模型 采样 ， 而 不 首先 将 其 转换 为 有 向 模型 的 做 法 似乎 需要 解决 循环 
依赖 的 问题 。 每 个 变量 与 每 个 其 他 变量 相互 作用 ， 因 此 对 于 采样 过 程 没有 明确 的 起 
点 。 不幸 的 是 ， 从 无 向 模型 中 抽取 样本 是 一 个 成 本 很 高 的 多 次 迭代 的 过 程 。 理 论 上 
最 简单 的 方法 是 Gibbs 采样 (Gibbs Sampling )。 假 设 我 们 在 一 个 n 维 向 量 的 随机 
变量 x 上 有 一 个 图 模型 。 我 们 迭代 地 访问 每 个 变量 x;， 在 给 定 其 他 变量 的 条 件 下 从 
p(xi | x—i) 中 抽样 。 由 于 图 模型 的 分 离 性 质 ， 抽取 x; 时 我 们 可 以 等 价 地 仅 对 x; 的 邻 
居 条 件 化 。 不 幸 的 是 ， 在 我 们 遍历 图 模型 一 次 并 采样 所 有 n 个 变量 之 后 ， 我 们 仍然 
无 法 得 到 一 个 来 自 p(x) 的 客观 样本 。 相 反 ， 我 们 必须 重复 该 过 程 并 使 用 它们 邻居 的 
更 新 值 对 所 有 n 个 变量 重新 取样 。 在 多 次 重复 之 后 ， 该 过 程 浙 近 地 收敛 到 正确 的 目 
标 分 布 。 我 们 很 难 确定 样本 何 时 达到 所 期 望 分 布 的 足够 精确 的 近似 。 无 向 模型 的 采 
样 技 术 是 一 个 高 级 的 研究 方向 ， 第 十 七 章 将 对 此 进行 更 详细 的 讨论 。 





























16.4 ”结构 化 建 模 的 优势 


使 用 结构 化 概率 模型 的 主要 优点 是 它们 能 够 显著 降低 表示 概率 分 布 、 学 习 和 推 
断 的 成 本 。 有 向 模型 中 采样 还 可 以 被 加 速 ， 但 是 对 于 无 向 模型 情况 则 较为 复杂 。 选 
择 不 对 某 些 变量 的 相互 作用 进行 建 模 是 允许 所 有 这 些 操作 使 用 较 少 的 运行 时 间 和 内 
存 的 主要 机 制 。 图 模型 通过 省 略 某 些 边 来 传达 信息 。 在 没有 边 的 情况 下 ， 模 型 假设 
不 对 变量 间 直 接 的 相互 作用 建 模 。 

结构 化 概率 模型 允许 我 们 明确 地 将 给 定 的 现 有 知识 与 知识 的 学 习 或 者 推断 分 开 ， 
这 是 一 个 不 容易 量化 的 益处 。 这 使 我 们 的 模型 更 容易 开发 和 调试 。 我们 可 以 设计 、 
分 析 和 评估 适用 于 更 广 范围 的 图 的 学 习 算 法 和 推断 算法 。 同 时 ， 我 们 可 以 设计 能 够 
捕 提 到 我 们 认为 数据 中 存在 的 重要 关系 的 模型 。 然 后 ， 我 们 可 以 组 合 这 些 不 同 的 算 
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法 和 结构 ， 并 获得 不 同 可 能 性 的 笛 卡 尔 乘积 。 然 而 ， 为 每 种 可 能 的 情况 设计 端 到 端 
的 算法 会 更 加 困难 。 


16.5 ”学习 依赖 关系 


良好 的 生成 模型 需要 准确 地 捕获 所 观察 到 的 或 “可 见 ” 变 量 v 上 的 分 布 。 通 常 
v 的 不 同 元 素 彼此 高 度 依 赖 。 在 深度 学 习 中 ， 最 常用 于 建 模 这 些 依赖 关系 的 方法 是 
引入 几 个 潜在 或 “隐藏 ”变量 h。 然 后 ， 该 模型 可 以 捕获 任何 对 (变量 w 和 vj 间 
接 依赖 可 以 通过 v; 和 h 之 间 直 接 依赖 和 v 和 hy 直接 依赖 捕获 ) 之 间 的 依赖 关系 。 

如 果 一 个 良好 的 关于 v 的 模型 不 包含 任何 潜 变 量 ， 那 么 它 在 贝 叶 斯 网 络 中 的 每 
个 节点 需要 具有 大 量 父 节点 或 在 马尔 可 夫 网 络 中 具有 非常 大 的 团 。 仅 仅 表示 这 些 高 
阶 相互 作用 的 成 本 就 很 高 了 ， 首 先 从 计算 角度 上 考虑 ， 存 储 在 存储 器 中 的 参数 数量 
是 团 中 成 员 数 量 的 指数 级 别 ， 接 着 在 统计 学 意义 上 ， 因 为 这 些 指 数 数量 的 参数 需要 
大 量 的 数据 来 准确 估计 。 

当 模 型 由 在 描述 直接 连接 的 可 见 变 量 之 间 的 依赖 关系 时 ， 通 常 不 可 能 连接 所 有 
变量 ， 因 此 设计 图 模型 时 需要 连接 那些 紧密 相关 的 变量 ， 并 忽略 其 他 变量 之 间 的 
作用 。 机 器 学 习 中 有 一 个 称 为 结构 学 习 (structure learning) 的 领域 专门 讨论 这 个 
问题 。Koller and Friedman (2009) 是 一 个 不 错 的 结构 学 习 参 考 资料 。 大 多 数 结构 学 
习 技术 基于 一 种 贪 焚 搜 索 的 形式 。 它 们 提出 了 一 种 结构 ， 对 具有 该 结构 的 模型 进行 
训练 ,然后 给 出 分 数 。 该 分 数 奖励 训练 集 上 的 高 精度 并 对 模型 的 复杂 度 进行 惩罚 。 然 
后 提出 添加 或 移 除 少量 边 的 候选 结构 作为 搜索 的 下 一 步 。 搜 索 向 一 个 预计 会 增加 分 
数 的 新 结构 发 展 。 

使 用 潜 变 量 而 不 是 自 适应 结构 避免 了 离散 搜索 和 多 轮训 练 的 需要 。 可 见 变 量 
和 潜 变 量 之 间 的 固定 结构 可 以 使 用 可 见 单元 和 隐藏 单元 之 间 的 直接 作用 ， 从 而 建 模 
可 见 单 元 之 间 的 间接 作用 。 使 用 简单 的 参数 学 习 技 术 ， 我 们 可 以 学 习 到 一 个 具有 固 
定 结构 的 模型 ， 这 个 模型 在 边缘 分 布 p(v) 上 拥有 正确 的 结构 。 

潜 变 量 除 了 发 挥 本 来 的 作用 ， 即 能 够 高 效 地 描述 p(v) 以 外 ， 还 具有 另外 的 优 
势 。 新 变量 h 还 提供 了 v 的 替代 表示 。 例 如 ， 如 第 3.9.6 节 所 示 ， 高 斯 混合 模型 学 习 
了 一 个 潜 变 量 ， 这 个 潜 变 量 对 应 于 输入 样本 是 从 哪 一 个 混合 体 中 抽出 。 这 意味 着 高 
斯 混合 模型 中 的 潜 变 量 可 以 用 于 做 分 类 。 我 们 可 以 看 到 第 十 四 章 中 简单 的 概率 模型 
如 稀 政 编码 ， 是 如 何 学 习 可 以 用 作 分 类 器 输入 特征 或 者 作为 流 形 上 坐标 的 潜 变 量 的 。 
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其 他 模型 也 可 以 使 用 相同 的 方式 ， 但 是 更 深 的 模型 和 具有 多 种 相互 作用 方式 的 模型 
可 以 获得 更 丰富 的 输入 描述 。 许 多 方法 通过 学 习 潜 变量 来 完成 特征 学 习 。 通 常 ， 给 
定 v 和 hh， 实验 观察 显示 Ejh | v] 或 arg max, p(h, v) 都 是 v 的 良好 特征 映射 。 














16.6 ”推断 和 近似 推断 


解决 变量 之 间 如 何 相 互 关联 的 问题 是 我 们 使 用 概率 模型 的 一 个 主要 方式 。 给 定 
一 组 医学 测试 ， 我 们 可 以 询问 患者 可 能 串 有 什么 疾病 。 在 一 个 潜 变 量 模 型 中 ， 我 们 
可 能 需要 提取 能 够 描述 可 观察 变量 v 的 特征 E(h | vj。 有 时 我 们 需要 解决 这 些 问 题 
来 执行 其 他 任务 。 我 们 经 常 使 用 最 大 似 然 的 准则 来 训练 我 们 的 模型 。 由 于 


log p(v) = En~pnjo) [log p(h, v) — log p(h | v)], (16.9) 


学 习 过 程 中 ， 我 们 经 常 需要 计算 p(h | v)。 所 有 这 些 都 是 推断 (inference) 问题 的 例 
子 ， 其 中 我 们 必须 预测 给 定 其 他 变量 的 情况 下 一 些 变量 的 值 ， 或 者 在 给 定 其 他 变量 
值 的 情况 下 预测 一 些 变量 的 概率 分 布 。 

不 幸 的 是 ， 对 于 大 多 数 有 趣 的 深度 模型 来 说 ， 即 使 我 们 使 用 结构 化 图 模型 来 简 
化 这 些 推断 问题 ， 它 们 仍然 是 难以 处 理 的 。 图 结构 允许 我 们 用 合理 数量 的 参数 来 表 
示 复 杂 的 高 维 分 布 , 但 是 用 于 深度 学 习 的 图 并 不 满足 这 样 的 条 件 ， 从 而 难以 实现 高 
效 地 推断 。 

我 们 可 以 直接 看 出 ， 计 算 一 般 图 模型 的 边缘 概率 是 #P-hard 的 。 复 杂 性 类 别 
#P 是 复杂 性 类 别 NP 的 泛 化 。NP 中 的 问题 只 需 确 定 其 中 一 个 问题 是 否 有 解决 方 
案 ， 并 找到 一 个 解决 方案 ( 如 果 存 在 ) 就 可 以 解决 。#P 中 的 问题 需要 计算 解决 方案 
的 数量 。 为 了 构建 最 坏 情 况 的 图 模型 ， 我 们 可 以 设想 一 下 我 们 在 3-SAT 问题 中 定义 
二 值 变 量 的 图 模型 。 我 们 可 以 对 这 些 变量 施加 均匀 分 布 。 然 后 我 们 可 以 为 每 个 子 名 
添加 一 个 三 值 潜 变 量 ,来 表示 每 个 子 句 是 否 成 立 。 然 后 ,我们 可 以 添加 男 一 个 潜 变 
量 ， 来 表示 所 有 子 句 是 否 成 立 。 这 可 以 通过 构造 一 个 潜 变 量 的 缩减 树 来 完成 ， 树 中 
的 每 个 结 点 表示 其 他 两 个 变量 是 否 成 立 ， 从 而 不 需要 构造 一 个 大 的 团 。 该 树 的 叶 是 
每 个 子 名 的 变量 。 树 的 根 表示 整个 问题 是 否 成 立 。 由 于 子 句 的 均匀 分 布 ， 缩 减 树 根 
结 点 的 边缘 分 布 表示 子 句 有 多 少 比 例 是 成 立 的 。 虽 然 这 是 一 个 设计 的 最 坏 情 况 的 例 
子 ，NP-hard 图 确实 会 频繁 地 出 现在 现实 世界 的 场景 中 。 

这 促使 我 们 使 用 近似 推断 。 在 深度 学 习 中 ， 这 通常 涉及 变 分 推 新 ， 其 中 通过 寻 
求 尽 可 能 接近 真实 分 布 的 近似 分 布 q(h | v) 来 通 近 真实 分 布 p(h | v)。 这 个 技术 将 在 
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第 十 九 章 中 深入 讨论 。 


16.7 ”结构 化 概率 模型 的 深度 学 习 方法 


深度 学 习 从 业者 通常 与 其 他 从 事 结构 化 概率 模型 研究 的 机 器 学 习 研究 者 使 用 相 
同 的 基本 计算 工具 。 然 而 ， 在 深度 学 习 中 ， 我 们 通常 对 如 何 组 合 这 些 工具 作出 不 同 
的 设计 决定 ， 导 致 总 体 算法 、 模 型 与 更 传统 的 图 模型 具有 非常 不 同 的 风格 。 

深度 学 习 并 不 总 是 涉及 特别 深 的 图 模型 。 在 图 模型 中 ， 我 们 可 以 根据 图 模型 的 
图 而 不 是 计算 图 来 定义 模型 的 深度 。 如 果 从 潜 变 量 万 到 可 观察 变量 的 最 短路 径 是 j 
D, 我们 可 以 认为 潜 变 量 hy 处 于 深度 j。 我 们 通常 将 模型 的 深度 描述 为 任何 这 样 的 
h; 的 最 大 深度 。 这 种 深度 不 同 于 由 计算 图 定义 的 深度 。 用 于 深度 学 习 的 许多 生成 模 
型 没有 潜 变 量 或 只 有 一 层 潜 变 量 ， 但 使 用 深度 计算 图 来 定义 模型 中 的 条 件 分 布 。 

深度 学 习 基 本 上 总 是 利用 分 布 式 表示 的 思想 。 即 使 是 用 于 深度 学 习 目 的 的 浅 层 
模型 ( 例如 预 训练 浅 层 模型 ， 稍 后 将 形成 深层 模型 )， 也 几乎 总 是 具有 单个 大 的 潜 变 
量 层 。 深 度 学 习 模 型 通常 具有 比 可 观察 变量 更 多 的 潜 变量 。 变 量 之 间 复杂 的 非 线性 
相互 作用 通过 多 个 潜 变量 的 间接 连接 来 实现 : 

相 比 之 下 ， 传 统 的 图 模型 通常 包含 至 少 是 偶尔 观察 到 的 变量 ， 即 使 一 些 训练 样 
本 中 的 许多 变量 随机 地 丢失 。 传 统 模型 大 多 使 用 高 阶 项 和 结构 学 习 来 捕获 变量 之 间 
复杂 的 非 线 性 相互 作用 。 如 果 有 潜 变 量 ， 它 们 的 数量 通常 很 少 。 

潜 变 量 的 设计 方式 在 深度 学 习 中 也 有 所 不 同 。 深 度 学 习 从 业者 通常 不 希望 潜 变 
量 提前 包含 了 任何 特定 的 含义 一 一 训练 算法 可 以 自由 地 开发 对 特定 数据 集 建 模 所 需 
要 的 概念 。 在 事后 解释 潜 变 量 通 常 是 很 困难 的 ， 但 是 可 视 化 技术 可 以 得 到 它们 表示 
的 一 些 粗略 表征 。 当 潜 变 量 在 传统 图 模型 中 使 用 时 ， 它 们 通常 被 赋予 一 些 特定 含义 
一 一 比如 文档 的 主题 、 学 生 的 智力 、 导 致 患者 症状 的 疾病 等 。 这 些 模型 通常 由 研究 
者 解释 ， 并 且 通 常 具有 更 多 的 理论 保证 ， 但 是 不 能 扩展 到 复杂 的 问题 ， 并 且 不 能 像 
深度 模型 一 样 在 许多 不 同 背 景 中 重复 使 用 。 

另 一 个 明显 的 区 别 是 深度 学 习 方 法 中 经 常 使 用 的 连接 类 型 。 深 度 图 模型 通常 具 
有 大 的 与 其 他 单元 组 全 连接 的 单元 组 ， 使 得 两 个 组 之 间 的 相互 作用 可 以 由 单个 矩阵 
描述 。 传 统 的 图 模型 具有 非常 少 的 连接 ， 并 且 每 个 变量 的 连接 选择 可 以 单独 设计 。 
模型 结构 的 设计 与 推断 算法 的 选择 紧密 相关 。 图 模型 的 传统 方法 通常 则 在 保持 精确 
推断 的 可 解 性 。 当 这 个 约束 太 强 时 ， 我 们 可 以 采用 一 种 流行 的 被 称 为 环 状 信念 传播 
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(loopy belief propagation) 的 近似 推断 算法 。 这 两 种 方法 通常 在 稀 疏 连接 图 上 都 有 
很 好 的 效果 。 相 比 之 下 ， 在 深度 学 习 中 使 用 的 模型 倾向 于 将 每 个 可 见 单元 v; 连接 到 
非常 多 的 隐藏 单元 h; 上 ， 从 而 使 得 h 可 以 获得 一 个 vi 的 分 布 式 表示 ( 也 可 能 是 其 
他 几 个 可 观察 变量 )。 分 布 式 表示 具有 许多 优点 ， 但 是 从 图 模型 和 计算 复杂 性 的 观点 
来 看 ， 分 布 式 表示 有 一 个 缺点 就 是 很 难产 生 对 于 精确 推 新 和 环 状 信念 传播 等 传统 技 
术 来 说 足够 稀 跑 的 图 。 结 果 ， 大 规模 图 模型 和 深度 图 模型 最 大 的 区 别 之 一 就 是 深度 
学 习 中 几乎 从 来 不 会 使 用 环 状 信念 传播 。 相 反 的 ， 许 多 深度 学 习 模 型 可 以 设计 来 加 
XE Gibbs 采样 或 者 变 分 推断 。 此 外 ， 深 度 学 习 模 型 包含 了 大 量 的 潜 变 量 ， 使 得 高 效 
的 数值 计算 代码 显得 格外 重要 。 除 了 选择 高 级 推断 算法 之 外 ,， 这 提供 了 另外 的 动机 ， 
用 于 将 结 点 分 组 成 层 ， 相 邻 两 层 之 间 用 一 个 和 矩阵 来 描述 相互 作用 。 这 要 求实 现 算 法 
的 单个 步骤 可 以 实现 高 效 的 矩阵 乘积 运算 ,或 者 专门 适用 于 稀 玖 连接 的 操作 ， 例 如 
块 对 角 和 矩阵 乘积 或 卷 积 。 

最 后 ， 图 模型 的 深度 学 习 方 法 的 一 个 主要 特征 在 于 对 未 知 量 的 较 高 容忍 度 。 与 
简化 模型 直到 它 的 每 一 个 量 都 可 以 被 精确 计算 不 同 的 是 ， 我 们 仅仅 直接 使 用 数据 运 
行 或 者 是 训练 ， 以 增强 模型 的 能 力 。 我 们 一 般 使 用 边缘 分 布 不 能 计算 的 模型 ， 但 可 
以 从 中 简单 地 采 近 似 样 本 。 我 们 经 常 训练 具有 难以 处 理 的 目标 函数 的 模型 ， 我 们 甚 
至 不 能 在 合理 的 时 间 内 近似 ， 但 是 如 果 我 们 能 够 高 效 地 获得 这 样 一 个 函数 的 梯度 佑 
计 ， 我 们 仍然 能 够 近似 训练 模型 。 深 度 学 习 方 法 通 稼 是 找 出 我 们 绝对 需要 的 最 小 量 
信息 ， 然 后 找 出 如 何 尽 快 得 到 该 信息 的 合理 近似 。 




















16.7.1 “实例 : 受 限 玻 尔 将 曼 机 


FIRER StL (Restricted Boltzmann Machine, RBM ) (Smolensky, 1986) 或 
者 得 风琴 (harmonium ) 是 图 模型 如 何 用 于 深度 学 习 的 典型 例子 。RBM 本 身 不 是 一 
个 深层 模型 。 相 反 ， 它 有 一 层 潜 变 量 ,， 可 用 于 学 习 输 入 的 表示 。 在 第 二 十 章 中 ,我 们 
将 看 到 RBM 如 何 被 用 来 构建 许多 的 深层 模型 。 在 这 里 ， 我 们 举例 展示 了 RBM 在 
许多 深度 图 模型 中 使 用 的 实践 : 它 的 单元 被 分 成 很 大 的 组 ， 这 种 组 称 作 层 ， 层 之 间 
的 连接 由 矩阵 描述 ， 连 通 性 相对 密集 。 该 模型 被 设计 为 能 够 进行 高 效 的 Gibbs KE, 
并 且 模 型 设计 的 重点 在 于 以 很 高 的 自由 度 来 学 习 潜 变量 ， 而 潜 变 量 的 含义 并 不 是 设 
计 者 指定 的 。 之 后 在 第 20.2 节 ， 我 们 将 更 详细 地 再 次 讨论 RBM. 

标准 的 RBM 是 具有 二 值 的 可 见 和 隐藏 单元 的 基于 能 量 的 模型 。 其 能 量 函 数 为 

E(v,h) = —b'v— c' h— v! Wh, (16.10) 
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其 中 b,c 和 W 都 是 无 约束 、 实 值 的 可 学 习 参 数 。 我 们 可 以 看 到 ， 模 型 被 分 成 两 组 
单元 : v 和 h， 它 们 之 间 的 相互 作用 由 和 矩阵 W 来 描述 。 该 模型 在 图 16.14 中 以 图 的 
形式 描绘 。 该 图 能 够 使 我 们 更 清楚 地 发 现 ， 该 模型 的 一 个 重要 方面 是 在 任何 两 个 可 
见 单元 之 间或 任何 两 个 隐藏 单元 之 间 没 有 直接 的 相互 作用 ( 因此 称 为 “ 受 限 ”， 一 般 
的 玻 尔 效 曼 机 可 以 具有 任意 连接 )。 











图 16.14: 一 个 画 成 马尔 可 夫 网 络 形式 的 RBM。 





对 RBM 结构 的 限制 产生 了 良好 的 属性 


plh|v)= [J ph | v) (16.11) 
以 及 
pv | h) = [Ire 19). (16.12) 
独立 的 条 件 分 布 很 容易 计算 。 对 于 三 元 的 受 限 玻 尔 效 曼 机 ， 我 们 可 以 得 到 
p(h; = 1 |v) =o(v' W.: + bi), (16.13) 
p(h; 20|v) 21—o(v' W.i 4 b;). (16.14) 


结合 这 些 属性 可 以 得 到 高 效 的 块 吉 布 斯 采样 (block Gibbs Sampling )， 它 在 同时 采 
样 所 有 h 和 同时 采样 所 有 v E. RBM 模型 通过 Gibbs 采样 产生 的 样本 展示 





在 图 16.15 中 。 
由 于 能 量 浮 数 本 身 只 是 参数 的 线性 函数 ,很 容易 获取 能 量 函 数 的 导数 。 例 如 ， 
Ə 
aw, PB = —vih;. (16.15) 


这 两 个 属性 , 高 效 的 Gibbs 采样 和 导数 计算 , 使 训练 过 程 变 得 非 党 方便。 在 第 十 
八 章 中 ,我 们 将 看 到 ， 可 以 通过 计算 应 用 于 这 种 来 自 模型 样本 的 导数 来 训练 无 向 模 
型 。 
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图 16.15: 训练 好 的 RBM 的 样本 及 其 权重 。( 左 ) 用 MNIST 训练 模型 ， 然 后 用 Gibbs 采样 进行 
采样 。 每 一 列 是 一 个 单独 的 Gibbs 采样 过 程 。 每 一 行 表示 另 一 个 1000 步 后 Gibbs 采样 的 输出 。 
连续 的 样本 之 间 彼 此 高 度 相 关 。( 右 ) 对 应 的 权重 向 量 。 将 本 图 结果 与 图 13.2 中 描述 的 线性 因子 模 
型 的 样本 和 权重 相 比 。 由 于 RBM 的 先 验 p(h) 没有 限制 为 因子 ， 这 里 的 样本 表现 得 好 很 多 。 采 样 
时 RBM 能 够 学 习 到 哪些 特征 需要 一 起 出 现 。 另 一 方面 说 ，RBM 后 验 p(h | v) 是 因子 的 ， 而 稀 玉 C 
编码 的 后 验 并 不 是 ， 所 以 在 特征 提取 上 稀 玻 编码 模型 表现 得 更 好 。 其 他 的 模型 可 以 使 用 非 因 子 的 
p(h) 和 非 因 子 的 p(h | 内。 图 片 经 LISA (2008) 允许 转载 。 







































































训练 模型 可 以 得 到 数据 v 的 表示 h。 我 们 经 常 使 用 Eno» h] 作为 一 组 描述 v 
的 特征 。 

ARR, RBM 展示 了 典型 的 图 模型 深度 学 习 方 法 : 使 用 多 层 光 变量 ， 并 由 和 矩 
阵 参 数 化 层 之 间 的 高 效 相互 作用 来 完成 表示 学 习 。 

图 模型 为 描述 概率 模型 提供 了 一 种 优雅 、 灵 活 、 清 晰 的 语言 。 在 未 来 的 章 方 中 ， 
我 们 将 使 用 这 种 语言 ， 以 其 他 视角 来 摘 述 各 种 各 样 的 深度 概率 模型 。 
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随机 算法 可 以 粗略 地 分 为 两 类 : Las Vegas 算 法 和 蒙特 卡 罗 算 法 。Las Vegas 算 
法 总 是 精确 地 返回 一 个 正确 答案 (或 者 返回 算法 失败 了 )。 这 类 方法 通常 需要 占用 随 
机 量 的 计算 资源 (一 般 指 内 存 或 运行 时 间 )。 与 此 相对 的 ， 蒙 特 卡 罗 方 法 返回 的 答案 
具有 随机 大 小 的 错误 。 花 费 更 多 的 计算 资源 (通常 包括 内 存 和 运行 时 间 ) 可 以 减少 
这 种 错误 。 在 任意 固定 的 计算 资源 下 ， 蒙 特 卡 罗 算 法 可 以 得 到 一 个 近似 解 。 

对 于 机 需 学 习 中 的 许多 问题 来 说 ， 我 们 很 难得 到 精确 的 答案 。 这 类 问题 很 难 用 
精确 的 确定 性 算法 如 Las Vegas 算法 解决 。 取 而 代 之 的 是 确定 性 的 近似 算法 或 蒙特 卡 
罗 近 似 方法 。 这 两 种 方法 在 机 器 学 习 中 都 非常 普遍 。 本 章 主要 关注 蒙特 卡 罗 方 法 。 





17.1 采样 和 蒙特 卡 罗 方 法 


机 噩 学 习 中 的 许多 重要 工具 都 基于 从 某 种 分 布 中 采样 以 及 用 这 些 样本 对 目标 量 
做 一 个 蒙特 卡 罗 佑 计 。 


17.1.1 ”为 什么 需要 采样 ? 


有 许多 原因 使 我 们 希望 从 某 个 分 布 中 采样 。 当 我 们 需要 以 较 小 的 代价 近似 许多 
项 的 和 或 某 个 积分 时 ， 采 样 是 一 种 很 灵活 的 选择 。 有 时 候 ， 我 们 使 用 它 加 速 一 些 很 
费时 却 易于 处 理 的 求 和 估计 ， 就 像 我 们 使 用 小 批量 对 整个 训练 代价 进行 子 采 样 一 样 。 
在 其 他 情况 下 ,我们 需要 近似 一 个 难以 处 理 的 求 和 或 积分 ， 例 如 估计 一 个 无 向 模 
型 中 配 分 函数 对 数 的 梯度 时 。 在 许多 其 他 情况 下 ， 抽 样 实际 上 是 我 们 的 目标 ， 例 如 
我 们 想 训练 一 个 可 以 从 训练 分 布 采样 的 模型 。 


501 
ww ai bt. com OD OOO0O00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
502 第 十 七 章 “蒙特 卡 罗 方 法 
17.1.2 ”蒙特 卡 罗 采 样 的 基础 


当 无 法 精确 计算 和 或 积分 (例如 ， 和 具有 指数 数量 个 项 ， 且 无 法 被 精确 简化 ) 
时 ， 通 常 可 以 使 用 蒙特 卡 罗 采 样 来 近似 它 。 这 种 想法 把 和 或 者 积分 视 作 某 分 布下 的 
期 望 ， 然 后 通过 估计 对 应 的 平均 值 来 近似 这 个 期 望 。 令 


s = Ñ pla) f(a) = Elf) (17.1) 


s= | r(a)f(w)da = Elf) (17.2) 
为 我 们 所 需要 估计 的 和 或 者 积分 ， 写 成 期 望 的 形式 ，p 是 一 个 关于 随机 变量 x 的 概 
率 分 布 《 求 和 时 ) 或 者 概率 密度 函数 求 积 分 时 )。 
我 们 可 以 通过 从 p 中 抽取 个 样本 a, ol 来 近似 s 并 得 到 一 个 经 验 平均 
i 


= za. (17.3) 














下 面 几 个 性 质 表 明了 这 种 近似 的 合理 性 。 首 先 很 容易 观察 到 3 xx T hi ETC BA , 
由 于 

















Blé,] = - Y EU (a9) = 9 5 一 5. (17.4) 


此 外 ,根据 大 数 定理 (Law of large number )， 如 果 样 本 zO 是 独立 同 分 布 的 ,那么 
其 平均 值 几 乎 必然 收敛 到 期 望 值 ， 即 


lim $,— 8, (17.5) 

只 需要 满足 各 个 单项 的 方差 Var[f(a(?)] 有 界 。 详 细 地 说 ,我们 考虑 当 n 增 大 时 S, 
的 方差 。 只 要 满足 Var[f(x)] < oo, 方差 d 就 会 减 小 并 收敛 到 0: 

Var|[$ gv (17.6) 

- a J1 (17.7) 
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这 个 简单 有 用 的 结果 启迪 我 们 如 何 估 计 蒙 特 卡 罗 均 值 中 的 不 确定 性 ， 或 者 等 价 地 说 
是 蒙特 卡 罗 估 计 的 期 望 误差 。 我 们 计算 了 f(a(0) 的 经 验 均 值 和 方差 1， 然 后 将 估计 的 
方差 除 以 样本 数 n 来 得 到 Var[S,] 的 估计 。 中 心 极 限定 理 〈central limit theorem ) 
告诉 我 们 à, 的 分 布 收 敛 到 以 s 为 均值 以 Yer 691 为 方差 的 正 态 分 布 。 这 使 得 我 们 可 
以 利用 正 态 分 布 的 累积 也 数 来 估计 $, 的 置信 区 间 。 

以 上 的 所 有 结论 都 依赖 于 我 们 可 以 从 基准 分 布 p(x) 中 轻易 地 采样 ， 但 是 这 个 
假设 并 不 是 一 直 成 立 的 。 当 我 们 无 法 从 p 中 采样 时 ， 一 个 备 选 方案 是 用 第 17.2 THE 
到 的 重要 采样 。 一 种 更 加 通用 的 方式 是 构建 一 个 收敛 到 目标 分 布 的 估计 序列 。 这 就 
是 马尔 可 夫 链 蒙特 卡 罗 方 法 ( 见 第 17.3 节 )。 


17.2 ”重要 采样 


如 方程 (17.2) 所 示 ， 在 蒙特 卡 罗 方 法 中 ， 对 积分 (或 者 和 ) 分 解 ， 确 定 积分 中 哪 
一 部 分 作为 概率 分 布 p(z) 以 及 哪 一 部 分 作为 被 积 的 函数 A(z) ( 我们 感 兴趣 的 是 估 
计 f(a) 在 概率 分 布 p(x) 下 的 期 望 ) 是 很 关键 的 一 步 。p(z)f(z) 不 存在 唯一 的 分 解 ， 
因为 它 总 是 可 以 被 写成 


l (17.8) 





在 这 里 ， 我 们 从 q 分 布 中 采样 ， 然 后 估计 PL 在 此 分 布下 的 均值 。 许 多 情况 中 , 我 们 
希望 在 给 定 p 和 了 的 情况 下 计算 某 个 期 望 ， 这 个 问题 既然 是 求 期 望 ， 那 么 很 自然 地 
p 和 f 是 一 种 分 解 选 择 。 然 而 ， 如 果 考 虑 达到 某 给 定 精度 所 需要 的 样本 数量 ， 这 个 
问题 最 初 的 分 解 选择 不 是 最 优 的 选择 。 幸 和 运 的 是 ， 最 优 的 选择 q* 可 以 被 简单 地 推导 
出 来 。 这 种 最 优 的 采样 函数 q* 对 应 所 请 的 最 优 重 要 采样 。 

从 式 (17.8) 所 示 的 关系 中 可 以 发 现 ， 任 意 蒙特 卡 罗 估 计 


,二 一 Y f (af?) (17.9) 


i=1,a@ ~p 


可 以 被 转化 为 一 个 重要 采样 的 估计 


21 志 p(a?)f(a?) 
7 q(a?) 


“通常 我 们 会 倾向 于 计算 方差 的 无 偏 估计 ， 它 由 偏差 的 平方 和 除 以 n. — 1 而 非 n 得 到 。 


(17.10) 


n : 
i=l, vg 
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我 们 可 以 容易 地 发 现 估计 的 期 望 与 q 分 布 无 关 : 




















E,[5,] = Ep[Sp] = s. (17.11) 








然而 ， 重 要 采样 的 方差 可 能 对 q 的 选择 非常 敏感 。 这 个 方差 可 以 表示 为 





5) = Var P969], 
Var [8,4] = V: | 20 | /n. (17.12) 
方差 想 要 取 到 最 小 值 ，g 需要 满足 
«(Qu — P6 (| 
qíz)-— 4 (17.13) 





在 这 里 Z 表示 归 一 化 常数 ， 选 择 适当 的 z 使 得 q*(a) 之 和 或 者 积分 为 1。 一 个 更 好 
的 重要 采样 分 布 会 把 更 多 的 权重 放 在 被 积 函 数 较 大 的 地 方 。 事实 上 ， 当 f(x) 的 正 负 
符号 不 变 时 ，Var[so*] = 0， 这 意味 着 当 使 用 最 优 的 9 分 布 时 ， 只 需要 一 个 样本 就 足 
够 了。 当然 ， 这 仅仅 是 因为 计算 q* 时 已 经 解决 了 原 问题 。 所 以 在 实践 中 这 种 只 需要 
采样 一 个 样本 的 方法 往往 是 无 法 实现 的 。 

对 于 重要 采样 来 说 任意 q 分 布 都 是 可 行 的 (从 得 到 一 个 期 望 上 正确 的 值 的 角度 
KA), q 指 的 是 最 优 的 q 分布 ( 从 得 到 最 小 方差 的 角度 上 考虑 )。 从 q 中 采样 往 
往 是 不 可 行 的， 但 是 其 他 仍然 能 降低 方差 的 q 的 选择 还 是 可 行 的 。 


另 一 种 方法 是 采用 有 偏重 要 采样 (biased importance sampling )， 这 种 方法 有 
一 个 优势 ， 即 不 需要 归 一 化 的 p 或 q 分 布 。 在 处 理 离散 变量 时 ， 有 偏重 要 采样 估计 


























可 以 表示 为 
ae 1 f(x 9) 
Spis = a nik (17.14) 
2 jii qa) 
" NO 
i» Pil ) f(a! )) 
= ey (17.15) 
bv 1 G(a®) )) 
» go? 
a dam J (a9) 
E qu (17.16) 
Mab ia) 


HP p Al g alot p 和 q 的 未 经 归 一 化 的 形式 ， zt? 是 从 分 布 q 中 抽取 的 样本 。 
这 种 估计 是 有 偏 的 ， 因 为 Els] As, RAM n oo 且 方 程 式 (17.14) 的 分 母 收敛 
到 1 时 ， 等 式 才 渐 近 地 成 立 。 所 以 这 一 估计 也 被 称 为 渐 近 无 偏 的 。 
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一 个 好 的 q 分 布 的 选择 可 以 显著 地 提高 蒙特 卡 罗 估 计 的 效率 ， 而 一 个 糟糕 的 q 
分 布 选 择 则 会 使 效率 更 糟糕 。 我 们 回 过 头 来 看 看 方程 式 (17.12) 会 发 现 ， 如 果 存 在 一 
个 4 使 得 POLS 很 大 , 那么 这 个 估计 的 方差 也 会 很 大 。 当 g(a) 很 小 , 而 f(z) 和 pa) 
都 较 大 并 且 无 法 抵消 q 时 ,这 种 情况 会 非常 明显 。g 分 布 经 稼 会 取 一 些 简单 常用 的 分 
布 使 得 我 们 能 够 从 q 分 布 中 容易 地 采样 。 当 z 是 高 维 数据 时 , q 分 布 的 简单 性 使 得 它 
很 难 与 p 或 者 p|f| 相 匹 配 。 当 g(a) > p(a?)|f(a9)| 时 ， 重 要 采样 采 到 了 很 多 无 
用 的 样本 (很 小 的 数 或 零 相 加 )。 另 一 种 相对 少见 的 情况 是 g(a) K p(a)| f (a(?)], 
相应 的 比值 会 非常 大 。 正 因为 后 一 个 事件 是 很 少 发 生 的 ， 这 种 样本 很 难 被 采 到 ， 通 
常 使 得 对 s 的 估计 出 现 了 典型 的 欠 估计 ， 很 难 被 整体 的 过 估计 抵消 。 这 样 的 不 均匀 
情况 在 高 维 数据 屡见不鲜 ， 因 为 在 高 维度 分 布 中 联合 分 布 的 动态 域 可 能 非常 大 。 

尽管 存在 上 述 的 风险 ， 但 是 重要 采样 及 其 变种 在 机 器 学 习 的 应 用 中 仍然 扮演 着 
重要 的 角色 ， 包 括 深度 学 习 算法 。 例 如 ， 重 要 采样 被 应 用 于 加 速 训 练 具有 大 规模 词 
表 的 神经 网 络 语言 模型 的 过 程 中 ( 见 第 12.4.3.3 节 ) 或 者 其 他 有 着 大 量 输出 结 点 的 神 
经 网 络 中 。 此 外 ， 还 可 以 看 到 重要 采样 应 用 于 估计 配 分 函数 (一 个 概率 分 布 的 归 一 
化 常数 )， 详 见 第 18.7 节 ， 以 及 在 深度 有 辐 图 模型 比如 变 分 自 编 码 器 中 估计 对 数 似 然 
〈 详 见 第 20.10.3 15 )。 采 用 随机 梯度 下 降 训 练 模 型 参数 时 重要 采样 可 以 用 来 改进 对 代 
价 函数 梯度 的 估计 ， 尤 其 是 分 类 器 这 样 的 模型 ， 其 中 代价 函数 的 大 部 分 代价 来 自 于 
少量 错误 分 类 的 样本 。 在 这 种 情况 下 ， 更 加 频繁 地 抽取 这 些 困难 的 样本 可 以 减 小 梯 
度 估计 的 方差 (Hinton et al., 2006a)。 

















17.3 “马尔 可 夫 链 蒙特 卡 罗 方 法 


在 许多 实例 中 , 我 们 希望 采用 蒙特 卡 罗 方 法 , 然而 往往 又 不 存在 一 种 简单 的 方法 
可 以 直接 从 目标 分 布 pwoaa(x) 中 精确 采样 或 者 一 个 好 的 (方差 较 小 的 ) 重要 采样 分 
布 q(x). 在 深度 学 习 中 ， 当 分 布 pyoqaa(X) 表示 成 无 向 模 型 时 ,这 种 情况 往往 会 发 生 。 
在 这 种 情况 下 ;为 了 从 分 布 pacaa(x) 中 近似 采样 ,我 们 引入 了 一 种 称 为 马尔 可 夫 链 
(Markov Chain ) 的 数学 工具 。 利 用 马尔 可 夫 链 来 进行 蒙特 卡 罗 估 计 的 这 一 类 算法 被 
称 为 马尔 可 夫 链 蒙特 卡 罗 (Markov Chain Monte Carlo, MCMC ) 方法 。Koller and 
Friedman (2009) 花 了 大 量 篇 帆 来 描述 马尔 可 夫 链 蒙特 卡 罗 算 法 在 机 带 学 习 中 的 应 
用 。MCMC 技术 最 标准 、 最 一 般 的 的 理论 保证 只 适用 于 那些 各 状态 概率 均 不 为 零 的 
模型 。 因 此 ， 这 些 技术 最 方便 的 使 用 方法 是 用 于 从 基于 能 量 的 模型 (Energy-based 
model) E} p(x) x exp(—E(z)) 中 采样 ， 见 第 16.2.4 节 。 在 EBM 的 公式 表述 中 ， 
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一 个 状态 所 对 应 的 概率 都 不 为 零 。 事 实 上 ，MCMC 方法 可 以 被 广泛 地 应 用 在 包含 0 
概率 状态 的 许多 概率 分 布 中 。 然而, 在 这 种 情况 下 ,关于 MCMC 方法 性 能 的 理论 保 
证 只 能 依据 具体 不 同类 型 的 分 布 具 体 分 析 证 明 。 在 深度 学 习 中 ， 我 们 通常 依赖 于 那 
些 一 般 的 理论 保证 ， 其 在 所 有 基于 能 量 的 模型 都 能 自然 成 立 。 

为 了 解释 从 基于 能 量 的 模型 中 采样 困难 的 原因 ， 我 们 考虑 一 个 包含 两 个 变量 
的 EBM WHF, W p(a, b) 为 其 分 布 。 为 了 采 a, 我 们 必须 先 从 pla | b) 中 采样 ; 为 
了 采 b, 我 们 又 必须 从 p(b | a) 中 采样 。 这 似乎 成 了 环 手 的 先 有 鸡 还 是 先 有 和 蛋 的 问题 。 
有 向 模 型 避免 了 这 一 问题 因为 它 的 图 是 有 向 无 环 的 。 为 了 完成 原始 采样 ( Ancestral 
Sampling )， 在 给 定 每 个 变量 的 所 有 父 结 点 的 条 件 下 ， 我 们 根据 拓扑 顺序 采样 每 一 个 
变量 ， 这 个 变量 是 确定 能 够 被 采样 的 〈 详 见 第 16.3 节 )。 原 始 采样 定义 了 一 种 高 效 
的 、 单 遍 的 方法 来 抽取 一 个 样本 。 

fr EBM 中 ， 我 们 通过 使 用 马尔 可 夫 链 来 采样 ， 从 而 避免 了 先 有 鸡 还 是 先 有 和 蛋 
的 问题 。 马 尔 可 夫 链 的 核心 思想 是 从 某 个 可 取 任 意 值 的 状态 m 出 发 。 随 着 时 间 的 推 
移 ， 我 们 随机 地 反复 更 新 状态 xro RA m 成 为 了 一 个 从 pla) 中 抽出 的 (非常 接近 ) 
比较 一 般 的 样本 。 在 正式 的 定义 中 ， 马 尔 可 夫 链 由 一 个 随机 状态 x 和 一 个 转移 分 布 
T(x | a) EXM, T(x | x) 是 一 个 概率 分 布 ， 说 明了 给 定 状态 z 的 情况 下 随机 地 
转移 到 a! 的 概率 。 运 行 一 个 马尔 可 夫 链 意味 着 根据 转移 分 布 T | 四 采 出 的 值 x 

为 了 给 出 MCMC 方法 为 何 有 效 的 一 些 理论 解释 ， 重 参数 化 这 个 问题 是 很 有 用 
的 。 首 先 我 们 关注 一 些 简单 的 情况 ， 其 中 随机 变量 x 有 可 数 个 状态 。 我 们 将 这 种 状 
态 简 单 地 记 作 正 整数 z。 不 同 的 整数 x 的 大 小 对 应 着 原始 问题 中 z 的 不 同 状 态 。 

接 下 来 我 们 考虑 如 果 并 行 地 运行 无 穷 多 个 马尔 可 夫 链 的 情况 。 不 同 马 尔 可 夫 
链 的 所 有 状态 都 采样 自 某 一 个 分 布 ga (x), 在 这 里 t 表示 消耗 的 时 间 数 。 开 始 时 ,对 
每 个 马尔 可 夫 链 ， 我 们 采用 一 个 分 布 9 来 任意 地 初始 化 ro Zia, qO 与 所 有 之 前 
运行 的 马尔 可 夫 链 有 关 。 我 们 的 目标 是 qU (x) KAE p(x). 

因为 我 们 已 经 用 正 整 数 x 重 参数 化 了 这 个 问题 ,我们 可 以 用 一 个 向 量 v 来 描述 
这 个 概率 分 布 9， 














qx =i)= v; (17.17) 


然后 我 们 考虑 更 新 单一 的 马尔 可 夫 链 ， 从 状态 x 到 新 状态 z'。 单 一 状态 转移 到 
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a! 的 概率 可 以 表示 为 


g(a!) = So (a)T a | 2). (17.18) 





根据 状态 为 整数 的 参数 化 设 定 ， 我 们 可 以 将 转移 算 子 T 表示 成 一 个 矩阵 A. OB 
阵 A 的 定义 如 下 : 








Aij T(x’ i | x j). (17.19) 


使 用 这 一 定义 , 我 们 可 以 改写 式 (17.18) 。 不 同 于 之 前 使 用 q 和 了 来 理解 单个 状态 的 
更 新 ,我 们 现在 可 以 使 用 v 和 A 来 描述 当 我 们 更 新 时 (并行 运 行 的 ) 不 同 马尔 可 夫 
链 上 整个 分 布 是 如 何 变化 的 : 








v? = Ay), (17.20) 
重复 地 使 用 马尔 可 夫 链 更 新 相当 于 重复 地 与 矩阵 A 相 乘 。 换 言 之 ， 我 们 可 以 认为 这 
一 过 程 就 是 关于 A NAPE: 


v0 = Ary, (17.21) 


FEM: A 有 一 种 特殊 的 结构 ， 因 为 它 的 每 一 列 都 代表 一 个 概率 分 布 。 这 样 的 矩阵 
被 称 为 随机 和 矩阵 〈 Stochastic Matrix )。 如 果 对 于 任意 状态 x 到 任意 其 他 状态 x' 存在 
一 个 t 使 得 转移 概率 不 为 0， 那 么 Perron-Frobenius 定理 (Perron, 1907; Frobenius, 
1908) 可 以 保证 这 个 矩阵 的 最 大 特征 值 是 实数 量 大 小 为 1。 我 们 可 以 看 到 所 有 的 特征 
值 随 着 时 间 呈 现 指 数 变 化 : 


v? = ( Vdiag(A) V- !)'w? = Vdiag(A)! V1 v9. (17.22) 


这 个 过 程 导 致 了 所 有 不 等 于 1 的 特征 值 都 衰减 到 0。 在 一 些 额 外 的 较为 宽松 的 假 
设 下 ,我 们 可 以 保证 矩阵 A 只 有 一 个 对 应 特征 值 为 1 的 特征 向 量 。 所 以 这 个 过 程 
收敛 到 平稳 分 布 ( Stationary Distribution )， 有 时 也 被 称 为 均衡 分 布 Equilibrium 
Distribution )。 收 敛 时 ， 我 们 得 到 

v — Av= v, (17.23) 
这 个 条 件 也 适用 于 收敛 之 后 的 每 一 步 。 这 就 是 特征 向 量 方程 。 作 为 收敛 的 稳定 点 ，v 
一 定 是 特征 值 为 1 所 对 应 的 特征 向 量 。 这 个 条 件 保 证 收敛 到 了 平稳 分 布 以 后 ， 再 重 
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复 转移 采样 过 程 不 会 改变 所 有 不 同 马 尔 可 夫 链 上 状态 的 分 布 ( 尽管 转移 算 子 自然 而 
然 地 会 改变 每 个 单独 的 状态 )。 

如 果 我 们 正确 地 选择 了 转移 算 子 T. HA qm BI fq 将 会 等 于 我 们 所 希 
望 采 样 的 分 布 p。 我 们 会 将 第 17.4 节 介绍 如 何 选择 T, 

可 数 状态 马尔 可 夫 链 的 大 多 数 性 质 可 以 被 推广 到 连续 状态 的 马尔 可 夫 链 中 。 在 
这 种 情况 下 ， 一 些 人 研究 者 把 这 种 马尔 可 夫 链 称 为 哈里 斯 链 (Harris Chain )， 但 是 我 
们 将 这 两 种 情况 都 称 为 马尔 可 夫 链 。 通 常 在 一 些 宽 松 的 条 件 下 ， 一 个 带 有 转移 算 子 
的 马尔 可 夫 链 都 会 收敛 到 一 个 不 动 点 ， 这 个 不 动 点 可 以 写成 如 下 形式 : 








q(x’) = Exa T (X | x), (17.24) 














这 个 方程 的 离散 版 本 就 相当 于 重新 改写 方程 式 (17.23) 。 当 x 是 离散 值 时 ， 这 个 期 
望 对 应 着 求 和 ， 而 当 x 是 连续 值 时 ， 这 个 期 望 对 应 的 是 积分 。 

无 论 状态 是 连续 的 还 是 离散 的 ， 所 有 的 马尔 可 夫 链 方法 都 包括 了 重复 、 随 机 地 
更 新 直到 最 后 状态 开始 从 均衡 分 布 中 采样 。 运 行 马尔 可 夫 链 直到 它 达到 均衡 分 布 的 
过 程 通常 被 称 为 马尔 可 夫 链 的 磨合 (Burning-in ) 过 程 。 在 马尔 可 夫 链 达到 均衡 分 
布 之 后 ， 我 们 可 以 从 均衡 分 布 中 抽取 一 个 无 限 多 数量 的 样本 序列 。 这 些 样本 服从 同 
一 分 布 ， 但 是 两 个 连续 的 样本 之 间 会 高 度 相关 。 所 以 一 个 有 限 的 序列 无 法 完全 表 
达 均 衡 分 布 。 一 种 解决 这 个 问题 的 方法 是 每 隔 m. 个 样本 返回 一 个 样本 ， 从 而 使 得 我 
们 对 于 均衡 分 布 的 统计 量 的 估计 不 会 被 MCMC 方 法 的 样本 之 间 的 相关 性 所 干扰 。 所 
以 马尔 可 夫 链 的 计算 代价 很 高 ， 主 要 源 于 达到 均衡 分 布 前 需要 磨合 的 时 间 以 及 在 达 
到 均衡 分 布 之 后 从 一 个 样本 转移 到 男 一 个 足够 无 关 的 样本 所 需要 的 时 间 。 如 果 我 们 
想 要 得 到 完全 独立 的 样本 ,那么 我 们 可 以 同时 并 行 地 运行 多 个 马尔 可 夫 链 。 这 种 方 
法 使 用 了 额外 的 并 行 计算 来 减少 时 延 。 使 用 一 条 马尔 可 夫 链 来 生成 所 有 样本 的 策略 
和 (使 用 多 条 马尔 可 夫 链 ) 每 条 马尔 可 夫 链 只 产生 一 个 样本 的 策略 是 两 种 极端 。 深 
度 学 习 的 从 业者 们 通常 选取 的 马尔 可 夫 链 的 数目 和 小 批量 中 的 样本 数 相近 ， 然 后 从 
这 些 固 定 的 马尔 可 夫 链 集合 中 抽取 所 需要 的 样本 。 马 尔 可 夫 链 的 数目 通常 选 为 100。 























这 段 时 间 通 常 被 称 为 混合 时 间 (Mixing Time )。 检 测 一 个 马尔 可 夫 链 是 否 达 到 平衡 
是 很 困难 的 。 我 们 并 没有 足够 完善 的 理论 来 解决 这 个 问题 。 理 论 只 能 保证 马尔 可 夫 
链 会 最 终 收敛 ,但 是 无 法 保证 其 他 。 如 果 我 们 从 和 矩阵 A 作用 在 概率 向 量 v 上 的 角度 
来 分 析 马 尔 可 夫 链 ， 那 么 我 们 可 以 发 现 当 A 除了 单个 1 以 外 的 特征 值 都 趋 于 0 时 ， 
马尔 可 夫 链 混合 成 功 ( 收敛 到 了 均衡 分 布 )。 这 也 意味 着 矩阵 A 的 第 二 大 特征 值 决 
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定 了 马尔 可 夫 链 的 混合 时 间 。 然 而 , 在 实践 中 , 我 们 通常 不 能 真 的 将 马尔 可 夫 链 表示 
成 矩阵 的 形式 。 我 们 的 概率 模型 所 能 够 达到 的 状态 是 变量 数 的 指数 级 别 ， 所 以 表达 
v, A RE A 的 特征 值 是 不 现实 的 。 由 于 以 上 在 内 的 诸多 阻碍 , 我 们 通常 无 法 知道 马 
尔 可 夫 链 是 否 已 经 混合 成 功 。 作 为 将 代 ， 我 们 只 能 运行 一 定量 时 间 马 尔 可 夫 链 直到 
我 们 粗略 估计 这 段 时 间 是 足够 的 ， 然 后 使 用 启发 式 的 方法 来 判断 马尔 可 夫 链 是 否 混 
合成 功 。 这 些 启 发 性 的 算法 包括 了 手动 检查 样本 或 者 衡量 前 后 样本 之 间 的 相关 性 。 











17.4 Gibbs 采样 





目前 为 止 我 们 已 经 了 解 了 如 何 通过 反复 更 新 m — a! ~ T(a! | x) 从 一 个 分 布 
q(z) 中 采样 。 然 而 我 们 还 没有 介绍 过 如 何 确定 g(x) 是 否 是 一 个 有 效 的 分 布 。 本 书 
中 将 会 描述 两 种 基本 的 方法 。 第 一 种 方法 是 从 已 经 学 习 到 的 分 布 pmoasl 中 推导 出 
了 ,下文 描述 了 如 何 从 基于 能 量 的 模型 中 采样 。 第 二 种 方法 是 直接 用 参数 捅 述 T, SR 
后 学 习 这 些 参 数 ， 其 平稳 分 布 隐 式 地 定义 了 我 们 所 感 兴趣 的 模型 pnaoau。 我 们 将 在 
第 20.12 市 和 第 20.13 节 中 讨论 第 二 种 方法 的 例子 。 

在 深度 学 习 中 ,我 们 通常 使 用 马尔 可 夫 链 从 定义 为 基于 能 量 的 模型 的 分 布 
pmodel (£) 中 采样 。 在 这 种 情况 下， 我 们 希望 马尔 可 夫 链 的 g(x) 分 布 就 是 pmoael(z)。 
为 了 得 到 所 期 望 的 g(a) 分布 ， 我 们 必须 选取 合适 的 T(a | x). 

Gibbs 采样 (Gibbs Sampling ) 是 一 种 概念 简单 而 又 有 效 的 方法 。 它 构造 一 个 
从 pPuoaa(z) 中 采样 的 马尔 可 夫 链 ， 其 中 在 基于 能 量 的 模型 中 从 T(x! | x) 采样 是 通 
过 选择 一 个 变量 x;， 然 后 从 paoaa 中 该 点 关于 在 无 向 图 9 (定义 了 基于 能 量 的 模 
型 结构 ) 中 邻接 点 的 条 件 分 布 中 采样 。 只 要 一 些 变量 在 给 定 相 邻 变量 时 是 条 件 独立 
的 ， 那 么 这 些 变量 就 可 以 被 同时 采样 。 正 如 在 第 16.7.1 节 中 看 到 的 RBM 示例 一 样 ， 
RBM 中 所 有 的 隐藏 单元 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 可 见 单元 的 条 件 下 它们 相 
互 条 件 独立 。 同 样 地 ， 所 有 的 可 见 单元 也 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 隐藏 单 
元 的 情况 下 它们 相互 条 件 独立 。 以 这 种 方式 同时 更 新 许多 变量 的 Gibbs 采样 通常 被 
称 为 块 吉 布 斯 采样 (block Gibbs Sampling )。 

设计 从 pmoaer 中 采样 的 马尔 可 夫 链 还 存在 其 他 备 选 方法 。 比 如 说 ，Metropolis- 
Hastings 算法 在 其 他 领域 中 广泛 使 用 。 不 过 在 深度 学 习 的 无 向 模型 中 ， 我 们 主要 使 
用 Gibbs 采样 ， 很 少 使 用 其 他 方法 。 改 进 采 样 技巧 也 是 一 个 潜在 的 研究 热点 。 
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17.5 “不 同 的 峰值 之 间 的 混合 挑战 


理想 情况 下 ， 从 设计 好 的 马尔 可 夫 链 中 采 出 的 连续 样本 之 间 是 完全 独立 的 ， 而 且 在 
x 室 间 中 ， 马 尔 可 夫 链 会 按 概率 大 小 访问 许多 不 同 区 域 。 

然而 ，MCMC 方法 采 出 的 样本 可 能 会 具有 很 强 的 相关 性 ， 尤 其 是 在 高 维 的 情况 
下 。 我 们 把 这 种 现象 称 为 慢 混 合 甚 至 混合 失败 。 具 有 缓慢 混合 的 MOCMC 方法 可 以 被 
视 为 对 能 量 函 数 无 意 地 执行 类 似 于 带 噪声 的 梯度 下 降 的 操作 ， 或 者 说 等 价 于 相对 于 
链 的 状态 〈 被 采样 的 随机 变量 ) 依据 概率 进行 噪声 怜 坡 。 (在 马尔 可 夫 链 的 状态 空 
EP) 从 al) 到 aO. 该 链 倾向 于 选取 很 小 的 步 长 ， 其 中 能 量 B(x 中) 通常 低 于 或 
者 近似 等 于 能 量 E(t), 倾向 于 向 较 低能 量 的 区 域 移动 。 当 从 可 能 性 较 小 的 状态 
(ERA p(x) 的 典型 样本 拥有 更 高 的 能 量 ) 开始 时 ， 链 趋向 于 逐渐 减少 状态 的 能 量 ， 
并 且 仅 仅 偶尔 移动 到 男 一 个 峰值 。 一 旦 该 链 已 经 找到 低能 量 的 区 域 (例如 ， 如果 变量 
是 图 像 中 的 像素 ， 则 低能 量 的 区 域 可 以 是 同一 对 象 所 对 应 图 像 的 一 个 连通 的 流 形 )， 
我 们 称 之 为 峰值 ， 链 将 倾向 于 围绕 着 这 个 峰值 游 走 ( 按 某 一 种 形式 随机 游 走 )。 它 
时 不 时 会 走出 该 峰值 ， 但 是 结果 通常 会 返回 该 峰值 或 者 ( 如果 找到 一 条 离开 的 路 线 ) 
移 向 另 一 个 峰值 。 问 题 是 对 于 很 多 有 趣 的 分 布 来 说 成 功 的 离开 路 线 很 少 ， 所 以 马尔 
可 夫 链 将 在 一 个 峰值 附近 抽取 远 超 过 需求 的 样本 。 

当 我 们 考虑 Gibbs 采样 算法 ( 见 第 17.4 节 ) 时 ， 这 种 现象 格外 明显 。 在 这 种 情 
况 下 ， 我 们 考虑 在 一 定 步 数 内 从 一 个 峰值 移动 到 一 个 临近 峰值 的 概率 。 决 定 这 个 概 
率 的 是 两 个 峰值 之 间 的 “能 量 障碍 ”的 形状 。 隔 着 一 个 巨大 “能 量 障 碍 ” ( 低 概率 
的 区 域 ) 的 两 个 峰值 之 间 的 转移 概率 是 〈 随 着 能 量 障 碍 的 高 度 ) 指数 下 降 的 ， 如 
图 17.1 所 示 。 当 目标 分 布 有 多 个 高 概率 峰值 并 且 被 低 概率 区 域 所 分 制 ,尤其 当 Gibbs 
采样 的 每 一 步 都 只 是 更 新 变量 的 一 小 部 分 而 这 一 小 部 分 变量 又 严重 依赖 其 他 的 变量 
时 ， 就 会 产生 问题 。 

举 一 个 简单 的 例子 ， 考 虑 两 个 变量 a，b 的 基于 能 量 的 模型 ， 这 两 个 变量 都 是 二 
值 的 ， 取 值 +1 或 者 -1。 如 果 对 某 个 较 大 的 正 数 w, E(a,b)— 一 wab， 那 么 这 个 模 
型 传达 了 一 个 强烈 的 信息 ，a 和 b 有 相同 的 符号 。 当 a = 1 时 用 Gibbs 采样 更 新 bo 
给 定 b 时 的 条 件 分 布 满足 pb = 1 |a= 1) = o(w)。 如 果 w 的 值 很 大 ，sigmoid PR 
数 趋 近 于 饱和 ， 那 么 5 也 取 到 1 的 概率 趋 近 于 1。 同 理 ， 如 果 a = —1, 那么 b 取 
到 —1 的 概率 也 趋 于 1。 根据 模型 Dmoaei(a,b), 两 个 变量 取 一 样 的 符号 的 概率 几乎 相 
AE. 根据 Pmoaela | b)， 两 个 变量 应 该 有 相同 的 符号 。 这 也 意味 着 Gibbs 采样 很 难 会 
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图 17.1: 对 于 三 种 分 布 使 用 Gibbs 采样 所 产生 的 路 径 ， 所 有 的 分 布 马尔 可 夫 链 初始 值 都 设 为 峰 
值 。( 左 ) 一 个 带 有 两 个 独立 变量 的 多 维 正 态 分 布 。 由 于 变量 之 间 是 相互 独立 的 ，Gibbs 采样 混合 得 
很 好 。( 中 ) 变量 之 间 存 在 高 度 相关 性 的 一 个 多 维 正 态 分 布 。 变 量 之 间 的 相关 性 使 得 马尔 可 夫 链 很 
难 混合 。 因 为 每 一 个 变量 的 更 新 需要 相对 其 他 变量 求 条 件 分 布 ， 相 关 性 减 慢 了 马尔 可 夫 链 远离 初 
始点 的 速度 。( 右 ) 峰 值 之 间 间 距 很 大 且 不 在 轴 上 对 齐 的 混合 高 斯 分 布 。Gibbs 采样 混合 得 很 慢 ， 因 
为 每 次 更 新 仅仅 一 个 变量 很 难 跨越 不 同 的 峰值 。 









































改变 这 些 变量 的 符号 。 

在 更 实际 的 间 题 中 ， 这 种 挑战 更 加 艰巨 因为 在 实际 问题 中 我 们 不 能 仅仅 关注 在 
两 个 峰值 之 间 的 转移 ， 更 要 关注 在 多 个 峰值 之 间 的 转移 。 如 果 由 于 峰值 之 间 混 合 困 
难 ， 而 导致 某 几 个 这 样 的 转移 难以 完成 ， 那 么 得 到 一 些 可 靠 的 覆盖 大 部 分 峰值 的 样 
本 集合 的 计算 代价 是 很 高 的 ， 同 时 马尔 可 夫 链 收敛 到 它 的 平稳 分 布 的 过 程 也 会 非常 
缓慢 。 

通过 寻找 一 些 高 度 依赖 变量 的 组 以 及 分 块 同时 更 新 块 (组 ) 中 的 变量 ， 这 个 问 
题 有 时 候 是 可 以 被 解决 的 。 然 而 不 幸 的 是 ， 当 依赖 关系 很 复杂 时 ， 从 这 些 组 中 采样 
的 过 程 从 计算 角度 上 说 是 难以 处 理 的 。 归 根 结 底 ， 马 尔 可 夫 链 最 初 就 是 被 提出 来 解 
决 这 个 问题 ， 即 从 大 量变 量 中 采样 的 问题 。 

在 定义 了 一 个 联合 分 布 poaa(z h) 的 潜 变 量 模型 中 ， 我 们 经 常 通过 交 蔡 地 从 
pnoaa(z| h) 和 Pmoaa(h | 四 中 采样 来 达到 抽 z 的 目的 。 从 快速 混合 的 角度 上 说 , 我 
们 更 希望 pasas (5| z) 有 很 大 的 精 。 然 而 ， 从 学 习 一 个 h 的 有 用 表示 的 角度 上 考虑 ， 
我 们 还 是 希望 h 能 够 包含 z 的 足够 信息 从 而 能 够 较 完 整地 重 构 它 ， 这 意味 h A a 
要 有 非常 高 的 互信 息 。 这 两 个 目标 是 相互 矛盾 的 。 我 们 经 常 学 习 到 能 够 将 x 精确 地 
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编码 为 h 的 生成 模型 ， 但 是 无 法 很 好 混合 。 这 种 情况 在 玻 尔 兹 曼 机 中 经 常 出 现 ， 一 
个 玻 尔 效 曼 机 学 到 的 分 布 越 尖锐 ， 该 分 布 的 马尔 可 夫 链 采样 越 难 混合 得 好 。 这 个 问 
题 在 图 17.2 中 有 所 描述 。 
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图 17.2: 深度 概率 模型 中 一 个 混合 缓慢 问题 的 例证 。 每 张 图 都 是 按照 从 左 到 右 从 上 到 下 的 顺序 的 。 
( 左 ) Gibbs 采样 从 MNIST 数据 集训 练 成 的 深度 玻 尔 效 曼 机 中 采 出 的 连续 样本 。 这 些 连续 的 样本 
之 间 非 常 相似 。 由 于 Gibbs 采样 作用 于 一 个 深度 图 模型 ， 相 似 度 更 多 地 是 基于 语义 而 非 原 始 视觉 
特征 。 但 是 对 于 吉 布 斯 链 来 说 从 分 布 的 一 个 峰值 转移 到 号 一 个 仍然 是 很 困难 的 ， 比 如 说 改变 数字 。 
CE) 从 生成 式 对 抗 网 络 中 抽出 的 连续 原始 样本 。 因 为 原始 采样 生成 的 样本 之 间 互 相 独立 ， 所 以 不 
存在 混合 问题 。 译 者 注 : 原 书 此 处 左右 搞 反 了 。 









































当 感 兴趣 的 分 布 对 于 每 个 类 具有 单独 的 流 形 结构 时 ， 所 有 这 些 问 题 都 
使 MCMC 方法 变 得 不 那么 有 用 : 分 布 集中 在 许多 峰值 周围 ， 并 且 这 些 峰 值 由 大 量 高 
能 量 区 域 分 制 我 们 在 许多 分 类 问题 中 直到 的 是 这 种 类 型 的 分 布 ， 由 于 峰值 之 间 混 
合 缓慢 ， 它 将 使 得 MCMC 方法 非常 缓慢 地 收敛 。 


17.5.1 不同 峰值 之 间 通 过 回 火 来 混合 


当 一 个 分 布 有 一 些 陡 峭 的 峰 并 且 被 低 概 率 区 域 包 围 时 ， 很 难 在 分 布 的 不 同 峰 
值 之 间 混 合 。 一 些 加 速 混合 的 方法 是 基于 构造 一 个 概率 分 布 替 代目 标 分 布 ， 这 个 概 
率 分 布 的 峰值 没有 那么 高 ， 峰 值 周围 的 低谷 也 没有 那么 低 。 基 于 能 量 的 模型 为 这 个 
想法 提供 一 种 简单 的 做 法 。 目 前 为 止 , 我 们 一 直 将 基于 能 量 的 模型 描述 为 定义 一 个 
概率 分 布 : 


p(x) x exp(—E(a)). (17.25) 
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基于 能 量 的 模型 可 以 通过 添加 一 个 额外 的 控制 峰值 尖锐 程度 的 参数 8 来 加 强 : 





pa(a) x exp(—8 E(a)). (17.26) 


B 参数 可 以 被 理解 为 温度 (temperature ) 的 倒数 ， 反 映 了 基于 能 量 的 模型 的 统计 物 
理学 起 源 。 当 温度 趋 近 于 0 时 ，6 趋 近 于 无 穷 大 ， 此 时 的 基于 能 量 的 模型 是 确定 性 
的 。 当 温度 趋 近 于 无 穷 大 时 ，6 趋 近 于 零 ， 基 于 能 量 的 模型 ( 对 离散 的 m) 成 了 均匀 
分 布 。 

通常 情况 下 , 在 8 = 1 时 训练 一 个 模型 。 但 我 们 也 可 以 利用 其 他 温度 ， 尤 其 是 
B <1 的 情况 。 回 火 (tempering ) 作为 一 种 通用 的 策略 ， 它 通过 从 8 < 1 模型 中 采 
样 来 实现 在 p, 的 不 同 峰值 之 间 快 速 混合 。 

基于 回 火 转移 (tempered transition ) (Neal, 1994) 的 马尔 可 夫 链 临时 从 高 温 
度 的 分 布 中 采样 使 其 在 不 同 峰值 之 间 混 合 ， 然 后 继续 从 单位 温度 的 分 布 中 采样 。 这 
些 技 巧 被 应 用 在 一 些 模 型 比如 RBM 中 (Salakhutdinov, 2010)。 另 一 种 方法 是 利用 并 
{TEIA (parallel tempering) (Iba, 2001)。 其 中 马尔 可 夫 链 并 行 地 模拟 许多 不 同 温 
度 的 不 同 状态 。 最 高 温度 的 状态 混合 较 慢 ， 相 比 之 下 最 低温 度 的 状态 ， 即 温度 为 1 
时 ， 采 出 了 精确 的 样本 。 转 移 算 子 包括 了 两 个 温度 之 间 的 随机 跳 转 ， 所 以 一 个 高 温 
度 状 态 分 布 模 中 的 样本 有 是 够 大 的 概率 跳 转 到 低温 度 分 布 的 槽 中 。 这 个 方法 也 被 应 
用 到 了 RBM 中 (Desjardins et al., 2010a; Cho et al., 2010a)。 尽 管 回 火 这 种 方法 前 
景 可 期 ， 现 今 它 仍然 无 法 让 我 们 在 采样 复杂 的 基于 能 量 的 模型 中 更 进一步 。 一 个 可 
能 的 原因 是 在 临界 温度 ( critical temperatures ) 时 温度 转移 算 子 必须 设置 得 非常 慢 
( 因为 温度 需要 逐渐 下 降 ) 来 确保 回 火 的 有 效 性 。 





17.5.2 ”深度 也 许 会 有 助 于 混合 


当 我 们 从 潜 变 量 模型 p(h,a) 中 采样 时 ， 我 们 可 以 发 现 如 果 p(h | 四 将 z 编码 
IEK, MAMA ple | h) 中 采样 时 ， 并 不 会 太 大 地 改变 z， 那 么 混合 结果 会 很 粳 
糕 。 解 决 这 个 问题 的 一 种 方法 是 使 得 h 成 为 一 种 将 z 编码 为 h 的 深度 表示 ， 从 而 使 
得 马尔 可 夫 链 在 h 空间 中 更 容易 混合 。 在 许多 表示 学 习 算法 如 自 编 码 器 和 RBM 中 ， 
h 的 边缘 分 布 相 比 于 z 上 的 原始 数据 分 布 ， 通常 表现 为 更 加 均匀 、 更 趋 近 于 单 峰值 。 
或 许可 以 说 ,这 是 因为 利用 了 所 有 可 用 的 表示 空间 并 尽量 减 小 重 构 误差 。 因 为 当 训 
练 集 上 的 不 同样 本 之 间 在 h 空间 能 够 被 非常 容易 地 区 分 时 ， 我 们 也 会 很 容易 地 最 
小 化 重 构 误差 。Bengio et al. (2013a) 观察 到 这 样 的 现象 ， 堆 释 越 深 的 正则 化 自 编 码 
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器 或 者 RBM， 顶 端 h 空间 的 边缘 分 布 越 趋向 于 均匀 和 发 散 ， 而 且 不 同 峰值 ( 比如 
说 实验 中 的 类 别 ) 所 对 应 区 域 之 间 的 间距 也 会 越 小 。 在 高 层 空间 中 训练 RBM 会 使 
得 Gibbs 采样 在 峰值 间 混 合 得 更 快 。 然 而 ， 如 何 利用 这 种 观察 到 的 现象 来 辅助 训练 
深度 生成 模型 或 者 从 中 采样 仍然 有 待 探 索 。 

尽管 存在 混合 的 难点 ， 蒙 特 卡 罗技 术 仍然 是 一 个 有 用 的 工具 ， 通 常 也 是 最 好 的 
可 用 工具 。 事实 上 ， 在 过 到 难以 处 理 的 无 向 模型 中 的 配 分 函数 时 ， 蒙 特 卡 罗 方 法 仍 
然 是 最 主要 的 工具 ， 这 将 在 下 一 章 详细 阐述 。 
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第 十 八 章 ”直面 配 分 函数 


在 第 16.2.2 节 中 ， 我 们 看 到 许多 概率 模型 (通常 是 无 向 图 模型 ) 由 一 个 未 归 一 
化 的 概率 分 布 5(x,9) 定义 。 我 们 必须 通过 除 以 配 分 函数 Z(9) 来 归 一 化 D, 以 获得 


一 个 有 效 的 概率 分 布 : 
P(x; 8) = 7095905 8). (18.1) 
配 分 函数 是 未 归 一 化 概率 所 有 状态 的 积分 ( 对 于 连续 变量 ) BORA ( 对 于 离散 变量 ): 
/aaa (18.2) 
或 者 
» po. (18.3) 


对 于 很 多 有 趣 的 模型 而 言 ， 以 上 积分 或 求 和 难以 计算 。 

正如 我 们 将 在 第 二 十 革 看 到 的 ， 有 些 深度 学 习 模型 被 设计 成 具有 一 个 易于 处 理 
的 归 一 化 常数 ， 或 被 设计 成 能 够 在 不 涉及 计算 p(x) 的 情况 下 使 用 。 人 然而， 其 他 一 些 
模型 会 直接 面 对 难 以 计算 的 配 分 函数 的 挑战 。 在 本 章 中 ， 我 们 会 介绍 用 于 训练 和 评 
估 那 些 具有 难以 处 理 的 配 分 函数 的 模型 的 技术 。 








18.1 ”对 数 似 然 梯度 


通过 最 大 似 然 学 习 无 向 模型 特别 困难 的 原因 在 于 配 分 函数 依赖 于 参数 。 对 数 似 
然 相对 于 参数 的 梯度 具有 一 项 对 应 于 配 分 函数 的 梯度 : 


Vologp(x;0) = Vo log p(x; 0) — Vo log Z(0). (18.4) 


515 
ww ai bt. com DOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
516 第 十 八 章 ”直面 配 分 函数 








这 是 机 器 学 习 中 非常 著名 的 TEA (positive phase ) M tH (negative phase ) 的 
分 解 。 


对 于 大 多 数 感 兴趣 的 无 向 模型 而 言 ， 负 相 是 困难 的 。 没 有 潜 变 量 或 潜 变 量 之 间 
很 少 相互 作用 的 模型 通常 会 有 一 个 易于 计算 的 正 相 。RBM 的 隐藏 单元 在 给 定 可 见 单 
Ed 情况 下 彼此 条 件 独立 ， 是 一 个 典型 的 具有 简单 正 相 和 困难 负 相 的 模型 。 正 相 计 
洲 变 县 之 问 共有 复杂 相互 作用 的 依 况 将 主要 在 第 十 和 讨论 。 本 章 主要 





让 我 们 进一步 分 析 log Z 的 梯度 : 

















Vo log Z (18.5) 

_ ve4 (18.6) 

E mE (18.7) 

- a S (18.8) 

对 于 保证 所 有 的 x 都 有 p(x) > 0 的 模型 ， 我 们 可 以 用 exp(log Po) (HE p(x): 
S Vo Eu (18.9) 

Pape > (18.10) 

_ pue log p(x) (18.11) 

e piu )Vo log p(x (18.12) 

= Ex p(x) Ve log f(x). (18.13) 











上 述 推导 对 离散 的 z 进行 求 和 ， 对 连续 的 z 进行 积分 也 可 以 得 到 类 似 结果 。 在 
连续 版 本 的 推导 中 ， 使 用 在 积分 符号 内 取 微 分 的 莱 布 尼 兹 法 则 可 以 得 到 等 式 


vo /peom= /vod (18.14) 


该 等 式 只 适用 于 p M Vep(x) 上 的 一 些 特定 规范 条 件 。 在 测度 论 术语 中 ， 这 些 条 件 
是 : (1) 对 每 一 个 9 而 言 , 未 归 一 化 分 布 方 必须 是 z 的 勒 贝 格 可 积 函 数 。(2) 对 于 所 
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有 的 9 和 几乎 所 有 z， 梯 度 Vep(x) 必须 存在 。(3) 对 于 所 有 的 0 和 几乎 所 有 的 z， 
必须 存在 一 个 可 积 函 数 R(z) 使 得 max; |5-p(x)| € R(z)。 幸 运 的 是 ， 大 多 数 感 兴 
的 机 器 学 习 模 型 都 具有 这 些 性 质 。 

等 式 














Vo log Z = Exnp(x) Vo log p(x) (18.15) 

是 使 用 各 种 蒙特 卡 罗 方 法 近似 最 大 化 (具有 难 计算 配 分 函数 模型 的 ) 似 然 的 基础 。 

蒙特 卡 罗 方 法 为 学 习 无 向 模型 提供 了 直观 的 框架 , 我们 能 够 在 其 中 考虑 正 相 和 负 
相 。 在 正 相 中 ， 我们 增 大 从 数据 中 采样 得 到 的 log5(x)。 在 负 相 中 ,我们 通过 降低 从 
模型 分 布 中 采样 的 log p(x) 来 降低 配 分 函数 。 

在 深度 学 习 文 献 中 ， 经 常会 看 到 用 能 量 函 数 ( 式 (16:7) ) 来 参数 化 logo ŒX 
种 情况 下 ， 正 相 可 以 解释 为 压低 训练 样本 的 能 量 ， 负 相 可 以 解释 为 提高 模型 抽出 的 
样本 的 能 量 ， 如 图 18.1 所 示 。 
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实现 式 (18.15) 的 一 个 朴素 方法 是 ， 每 次 需要 计算 梯度 时 ， 磨 合 随机 初始 化 的 一 
组 马尔 可 夫 链 。 当 使 用 随机 梯度 下 降 进 行 学 习 时 ， 这 意味 着 马尔 可 夫 链 必须 在 每 次 
梯度 步骤 中 磨合 。 这 种 方法 引导 下 的 训练 过 程 如 算法 18.1 所 示 。 内 循环 中 磨合 马尔 
可 夫 链 的 计算 代价 过 高 ， 导 致 这 个 过 程 在 实际 中 是 不 可 行 的 ， 但 是 这 个 过 程 是 其 他 
更 加 实际 的 近似 算法 的 基础 。 

我 们 可 以 将 最 大 化 似 然 的 MCMC 方法 视 为 在 两 种 力 之 间 平 衡 ， 一 种 力 拉 高 数据 
出 现时 的 模型 分 布 ， 一 种 拉 低 模型 采样 出 现时 的 模型 分 布 。 图 18.1 展示 了 这 个 过 程 。 
这 两 种 力 分 别 对 应 最 大 化 log p 和 最 小 化 log 2。 对 于 负 相 会 有 一 些 近 似 方 法 。 这 些 
近似 都 可 以 被 理解 为 使 负 相 更 容易 计算 , 但 是 也 可 能 将 其 推 向 错误 的 位 置 。 

因为 负 相 涉及 到 从 模型 分 布 中 抽样 ， 所 以 我 们 可 以 认为 它 在 找 模型 信任 度 很 高 
的 点 。 因 为 负 相 减少 了 这 些 点 的 概率 , 它们 一 般 被 认为 代表 了 模型 不 正确 的 信念 。 在 
文献 中 , 它们 经 常 被 称 为 “幻觉 ”或 “幻想 粒子 ”。 事实 上 , 负 相 已 经 被 作为 人 类 和 其 
他 动物 做 梦 的 一 种 可 能 解释 (Crick and Mitchison, 1983)。 这 个 想法 是 说 ， 大 脑 维持 
着 世界 的 概率 模型 ， 并 且 在 醒 着 经 历 真 实事 件 时 会 遵循 log5 的 梯度 ， 在 睡觉 时 会 遵 
循 log p 的 负 梯度 最 小 化 log 2， 其 经 历 的 样本 采样 自 当 前 的 模型 。 这 个 视角 解释 了 
具有 正 相 和 人 负 相 的 大 多 数 算法 ,但 是 它 还 没有 被 神经 科学 实验 证 明 是 正确 的 。 在 机 
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算法 18.1 一 种 朴素 的 MCMC 算法 ， 使 用 梯度 上 升 最 大 化 具有 难以 计算 配 分 函数 的 
对 数 似 然 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 k 大 到 足以 允许 磨合 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 100。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 (x (2, . x00) 的 小 批量 。 
g — E57, Ve log p(x; 0). 
初始 化 m 个 样本 (xO),..., x 0? 为 随机 值 ( 例如 ， 从 均匀 或 正 态 分 布 中 采 , 或 
大 致 与 模型 边缘 分 布匹 配 的 分 布 )。 
for i = 1 to k do 





for j = 1 to m do 
x) + gibbs_update(x). 
end for 
end for 
ges- +>", Vo log p(x; 0). 
0 ——0 1 cg. 


end while 











器 学 习 模 型 中 ， 通 常 有 必要 同时 使 用 正 相 和 负 相 ， 而 不 是 按 不 同时 间 阶 段 分 为 清醒 
和 REM 睡眠 时 期 。 正 如 我 们 将 在 第 19.5 节 中 看 到 的 ， 一 些 其 他 机 器 学 习 算 法 出 于 
其 他 原因 从 模型 分 布 中 采样 ， 这 些 算法 也 能 提供 睡觉 做 梦 的 解释 。 

这 样 理解 学 习 正 相 和 负 相 的 作用 之 后 ， 我 们 设计 了 一 个 比 算法 18.1 计算 代价 更 
低 的 蔡 代 算法 。 简 单 的 MCMSC 算法 的 计算 成 本 主要 来 自 每 一 步 的 随机 初始 化 磨合 马 
尔 可 夫 链 。 一 个 自然 的 解决 方法 是 初始 化 马尔 可 夫 链 为 一 个 非常 接近 模型 分 布 的 分 
布 ， 从 而 大 大 减少 磨合 步 又 。 

对 比 散 度 (CD, 或 者 是 具有 个 Gibbs 步骤 的 CD-k) 算法 在 每 个 步骤 中 初始 
化 马尔 可 夫 链 为 采样 自 数据 分 布 中 的 样本 (Hinton, 2000, 2010)， 如 算法 18.2 所 示 。 
从 数据 分 布 中 获取 样本 是 计算 代价 最 小 的 , 因为 它们 已 经 在 数据 集中 了 。 初 始 时 , 数 
据 分 布 并 不 接近 模型 分 布 ， 因 此 负 相 不 是 非常 准确 。 幸 和 运 的 是 ， 正 相 仍然 可 以 准确 
地 增加 数据 的 模型 概率 。 进 行 正 相 阶 段 一 段 时 间 之 后 ， 模 型 分 布 会 更 接近 于 数据 分 
布 ， 并 且 负 相 开 始 变 得 准确 。 

当然 ，CD 仍然 是 真实 负 相 的 一 个 近似 。CD 未 能 定性 地 实现 真实 负 相 的 主要 原 
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The positive phase The negative phase 


—— Pmodel (x) ——  Dpmodel (x) 


e o Pdata(x) e o Dadata(Z) 














图 18.1: 算法 18.1 HEH “EI” M nI. (E) 在 正 相 中 ， 我 们 从 数据 分 布 中 采样 ， 然 后 推 高 
它们 未 归 一 化 的 概率 。 这 意味 着 概率 越 高 的 数据 点 未 归 一 化 的 概率 被 推 高 得 越 多 。( 右 ) 在 负 相 中 ， 
我 们 从 模型 分 布 中 采样 ， 然 后 压低 它们 未 归 一 化 的 概率 。 这 与 正 相 的 倾向 相反 ， 给 未 归 一 化 的 概 
率 处 处 添加 了 一 个 大 常数 。 当 数据 分 布 和 模型 分 布 相等 时 ， 正 相 推 高 数据 点 和 负 相 压低 数据 点 的 
机 会 相等 。 此 时 ,不 再 有 任何 的 梯度 (期望 上 说 )， 训 练 也 必须 停止 。 

















因 是 ， 它 不 能 抑制 远离 真实 训练 样本 的 高 概率 区 域 。 这 些 区 域 在 模型 上 具有 高 概率 ， 
但 是 在 数据 生成 区 域 上 具有 低 概率 ， 被 称 为 RRRA (spurious modes )。 图 18.2 解 
释 了 这 种 现象 发 生 的 原因 。 基 本 上 ， 除 非 & 非常 大 ， 模 型 分 布 中 远离 数据 分 布 的 峰 
值 不 会 被 使 用 训练 数据 初始 化 的 马尔 可 夫 链 访问 到 。 

Carreira-Perpifian and Hinton (2005) 实验 上 证 明 CD 估计 偏向 于 RBM 和 完全 
可 见 的 玻 尔 兹 曼 机 ， 因 为 它 会 收敛 到 与 最 大 似 然 估 计 不 同 的 点 。 他 们 认为 ， 由 于 偏 
差 较 小 ，CD 可 以 作为 一 种 计算 代价 低 的 方式 来 初始 化 模型 ， 之 后 可 以 通过 计算 代价 
高 的 MCMC 方法 进行 精 调 。Bengio and Delalleau (2009) 表明 ，CD 可 以 被 理解 为 去 
掉 了 正确 MCMC 梯度 更 新 中 的 最 小 项 ， 这 解释 了 偏差 的 由 来 。 

在 训练 诸如 RBM 的 浅 层 网 络 时 CD 是 很 有 用 的 。 反 过 来 ， 这 些 可 以 堆 和 琶 起 来 初 
始 化 更 深 的 模型 , DBN 或 DBM。 但 是 CD 并 不 直接 有 助 于 训练 更 深 的 模型 。 这 是 
因为 在 给 定 可 见 单元 样本 的 情况 下 ， 很 难 获得 隐藏 单元 的 样本 。 由 于 隐藏 单元 不 包 

















括 在 数据 中 ， 所 以 使 用 训练 点 初始 化 无 法 解决 这 个 问题 。 即 使 我 们 使 用 数据 初始 化 
可 见 单 元 ， 我 们 仍然 需要 磨合 在 给 定 这 些 可 见 单元 的 隐藏 单元 条 件 分 布 上 采样 的 马 
尔 可 夫 链 。 


CD 算法 可 以 被 理解 为 惩罚 某 类 模型 ， 这 类 模型 的 马尔 可 夫 链 会 快速 改变 来 自 数 
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算法 18.2 对 比 散 度 算 法 ， 使 用 梯度 上 升 作为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 k 大 到 足以 让 从 paata 初始 化 并 从 p(x; 9) 采样 的 马尔 可 夫 链 混合 o 
在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1-20。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 {xO . x 00) 的 小 批量 。 
g — L5 Velogp(x?;0). 
for i = 1 to m do 





KM HX, 
end for 
for i = 1 to k do 

for j = 1 to m do 

x‘) 4+ gibbs_update( 文 9)). 

end for 
end for 
gc—-g-L57.4Velogp(x?;0). 
0 — 0 4 cg. 


end while 





据 的 输入 。 这 意味 着 使 用 CD 训练 从 某 种 程度 上 说 类 似 于 训练 自 编码 器 。 即 使 CD fih 
计 比 一 些 其 他 训练 方法 具有 更 大 偏差 .但 是 它 有 助 于 预 训练 之 后 会 堆 芭 起 来 的 浅 层 
模型 。 这 是 因为 堆栈 中 最 早 的 模型 会 受 激励 复制 更 多 的 信息 到 其 潜 变 量 , 使 其 可 用 
于 随后 的 模型 。 这 应 该 更 多 地 被 认为 是 CD 训练 中 经 常 可 利用 的 副产品 ， 而 不 是 主要 
的 设计 优势 。 

Sutskever and Tieleman (2010) 表明 ，CD 的 更 新 方向 不 是 任何 函数 的 梯度 。 这 
使 得 CD 可 能 存在 永久 循环 的 情况 ， 但 在 实践 中 这 并 不 是 一 个 严重 的 问题 。 

另 一 个 解决 CD 中 许多 问题 的 不 同 策略 是 ， 在 每 个 梯度 步骤 中 初始 化 马尔 可 夫 
链 为 先前 梯度 步骤 的 状态 值 。 这 个 方法 首先 被 应 用 数学 和 统计 学 社 群 发 现 ， 命 名 
为 随机 最 大 似 然 ( SML) (Younes, 1998)， 后 来 又 在 深度 学 习 社 群 中 以 名 称 持 续 性 对 
ERE (PCD, 或 者 每 个 更 新 中 具有 个 Gibbs 步 又 的 PCD-k ) 独立 地 被 重新 发 
现 (Tieleman, 2008)。 具 体 可 以 参考 算法 18.3 。 这 种 方法 的 基本 思想 是 ， 只 要 随机 梯 
度 算法 得 到 的 步 长 很 小 ， 那 么 前 一 步 又 的 模型 将 类 似 于 当前 步骤 的 模型 。 因 此 ， 来 
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—  Pmodel (x) 


. o Paata( z) 


p(x) 





图 18.2: 一 个 虚假 模 态 。 说明 对 比 散 度 (算法 18.2 ) 的 负 相 为 何 无 法 抑制 虚假 模 态 的 例子 。 一 个 虚 
假 模 态 指 的 是 一 个 在 模型 分 布 中 出 现 数据 分 布 中 却 不 存在 的 模式 。 由 于 对 比 散 度 从 数据 点 中 初始 
化 它 的 马尔 可 夫 链 然后 仅仅 运行 了 儿 步 马尔 可 夫 链 , 不 太 可 能 到 达 模 型 中 离 数 据点 较 远 的 模式 。 这 
意味 着 从 模型 中 采样 时 ， 我 们 有 时 候 会 得 到 一 些 与 数据 并 不 相似 的 样本 。 这 也 意味 着 由 于 在 这 些 
模式 上 浪费 了 一 些 概 率 质 量 ， 模 型 很 难 把 较 高 的 概率 质量 集中 于 正确 的 模式 上 。 出 于 可 视 化 的 目 
的 ， 这 个 图 使 用 了 某 种 程度 上 说 更 加 简单 的 距离 的 概念 一 一 在 R 的 数 轴 上 虚假 模 态 与 正确 的 模式 
有 很 大 的 距离 。 这 对 应 着 基于 局 部 移动 R 上 的 单个 变量 v 的 马尔 可 夫 链 。 对 于 大 部 分 深度 概率 模 
型 来 说 ， 马 尔 可 夫 链 是 基于 Gibbs 采样 的 ， 并 且 对 于 单个 变量 产生 非 局 部 的 移动 但 是 无 法 同时 移 
动 所 有 的 变量 。 对 于 这 些 问题 来 说 ,考虑 编辑 中 离 比 欧式 距离 通常 更 好 。 然 而 ， 高 维 空间 的 编辑 距 
离 很 难 在 二 维 空 间作 图 展示 。 



























































自 先前 模型 分 布 的 样本 将 非常 接近 来 自 当 前 模型 分 布 的 客观 样本 ， 用 这 些 样 本 初始 
化 的 马尔 可 夫 链 将 不 需要 花费 很 多 时 间 来 完成 混合 。 

因为 每 个 马尔 可 夫 链 在 整个 学 习 过 程 中 不 断 更 新 ， 而 不 是 在 每 个 梯度 步骤 中 重 
新 开始 , 马尔 可 夫 链 可 以 自由 探索 很 远 , 以 找到 模型 的 所 有 峰值 , 因此 , SML EG CD 更 
不 容易 形成 具有 虚假 模 态 的 模型 。 此 外 ， 因 为 可 以 存储 所 有 采样 变量 的 状态 ， 无 论 
是 可 见 的 还 是 潜在 的 ，SML 为 隐藏 单元 和 可 见 单元 都 提供 了 初始 值 。CD 只 能 为 可 
见 单元 提供 初始 化 ， 因 此 深度 模型 需要 进行 磨合 步 又。SML 能 够 高 效 地 训练 深度 模 
型 。Marlin et al. (2010) 将 SML 与 本 章 中 提出 的 许多 其 他 标准 方法 进行 比较 。 他 们 
发 现 ，SML Æ RBM 上 得 到 了 最 佳 的 测试 集 对 数 似 然 ， 并 且 如 果 RBM 的 隐藏 单元 被 
FAVE SVM 分 类 器 的 特征 ,那么 SML 会 得 到 最 好 的 分 类 精度 。 

TE k 太 小 或 e 太 大 时 ， 随 机 梯度 算法 移动 模型 的 速率 比 马尔 可 夫 链 在 迭代 步 
中 混合 更 快 ， 此 时 SML 容易 变 得 不 准确 。 不 幸 的 是 ， 这 些 值 的 容许 范围 高 度 依赖 
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算法 18.3 随机 最 大 似 然 /持续 性 对 比 散 度 算法 ， 使 用 梯度 上 升 作为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 开 大 到 足以 让 从 p(x; 9 二 eg) 采样 的 马尔 可 夫 链 磨合 MARA p(x:0) 
的 样本 开始 )。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1， 对 于 更 复杂 的 模型 如 深度 
玻 尔 效 曼 机 可 能 要 设 为 5 到 50。 
初始 化 m 个 样本 (xO2,..., x 0? 为 随机 值 (例如 ， 从 均匀 或 正 态 分 布 中 采 , 或 大 
致 与 模型 边缘 分 布匹 配 的 分 布 )。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 (x(O,... x) 的 小 批量 。 
g — L4 Vo log p(x; 0). 
for i = 1 to k do 


for j = 1 to m do 





x‘) + gibbs_update(x). 
end for 
end for 
g—g- L5 Vo log p(x; 0). 
0 二 0 二 eg. 


end while 





于 具体 问题 。 现 在 还 没有 方法 能 够 正式 地 测试 马尔 可 夫 链 是 否 能 够 在 迭 代步 又 之 间 
成 功 混合 。 主 观 地 ， 如 果 对 于 Gibbs 步骤 数目 而 言 学习 率 太 大 的 话 ， 那 么 梯度 步 又 
中 负 相 采样 的 方差 会 比 不 同 马尔 可 夫 链 中 负 相 采样 的 方差 更 大 。 例 如 ， 一 个 MNIST 
模型 在 一 个 步 又 中 只 采样 得 到 了 7。 然 后 学 习 过 程 将 会 极 大 降低 7 对 应 的 峰值 ， 在 
下 一 个 步骤 中 ， 模 型 可 能 会 只 采样 得 到 9。 

从 使 用 SML 训练 的 模型 中 评估 采样 必须 非常 小 心 。 在 模型 训练 完 之 后 ， 有 必要 
从 一 个 随机 起 点 初始 化 的 新 马尔 可 夫 链 抽取 样本 。 用 于 训练 的 连续 负 相 链 中 的 样本 
受到 了 模型 最 近 几 个 版 本 的 影响 ， 会 使 模型 看 起 来 具有 上 比 其 实际 更 大 的 容量 。 

Berglund and Raiko (2013) 进行 了 实验 来 检验 由 CD 4I SML 进行 梯度 估计 带 来 
的 偏差 和 方差 。 结 果 证 明 CD 比 基 于 精确 采样 的 估计 具有 更 低 的 方差 。 而 SML 有 更 
高 的 方差 。CD 方差 低 的 原因 是 ， 其 在 正 相 和 负 相 中 使 用 了 相同 的 训练 点 。 如 果 从 不 
同 的 训练 点 来 初始 化 负 相 ， 那 么 方差 会 比 基 于 精确 采样 的 估计 的 方差 更 大 。 
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所 有 基于 MCMC 从 模型 中 抽取 样本 的 方法 在 原则 上 几乎 可 以 与 MCMC 的 任何 
变 体 一 起 使 用 。 这 意味 着 诸如 SML 这 样 的 技术 可 以 使 用 第 十 七 章 中 描述 的 任何 增 
强 MCMC 的 技术 (例如 并 行 回 火 ) 来 加 以 改进 (Desjardins et al., 2010b; Cho et al., 
2010b)。 

一 种 在 学 习 期 间 加 速 混合 的 方法 是 , 不 改变 蒙特 卡 罗 采 样 技 术 , 而 是 改变 模型 的 
参数 化 和 代价 函数 。 快速 持续 性 对 比 散 度 (fast persistent contrastive divergence ), 
或 者 FPCD (Tieleman and Hinton, 2009) 使 用 如 下 表达 式 去 蔡 换 传统 模型 的 参数 9 


0 = g(slow) + g(fast). (18.16) 


现在 的 参数 是 以 前 的 两 倍 多 ， 将 其 逐个 相 加 以 定义 原始 模型 的 参数 。 快 速 复 制 参数 
可 以 使 用 更 大 的 学 习 率 来 训练 , 从 而 使 其 快速 响应 学 习 的 负 相 , 并 促使 马尔 可 夫 链 探 
索 新 的 区 域 。 这 能 够 使 马尔 可 夫 链 快速 混合 ， 尽 管 这 种 效应 只 会 发 生 在 学 习 期 间 快 
速 权重 可 以 自由 改变 的 时 候 。 通 常 ， 在 短 时 间 地 将 快速 权重 设 为 大 值 并 保持 足够 长 
时 间 ， 使 马尔 可 夫 链 改变 峰值 之 后 ， 我 们 会 对 快速 权重 使 用 显著 的 权重 衰减 ， 促 使 
它们 收敛 到 较 小 的 值 。 

本 方 介绍 的 基于 MCMC 的 方法 的 一 个 关键 优点 是 它们 提供 了 log 2 梯度 的 佑 
计 ， 因 此 我 们 可 以 从 本 质 上 将 问题 分 解 为 log 方 和 log Z 两 块 。 然 后 我 们 可 以 使 用 任 
何其 他 的 方法 来 处 理 log 5(x)， 只 需 将 我 们 的 负 相 梯度 加 到 其 他 方法 的 梯度 中 。 特 别 
地 ,这 意味 着 正 相 可 以 使 用 那些 仅 提供 方 下 限 的 方法 。 然 而 ,本 音 介 绍 处 理 log2 的 
大 多 数 其 他 方法 都 和 基于 边界 的 正 相 方法 是 不 兼容 的 。 








18.3 WZA 





荣 特 卡 风 近 似 配 分 函数 及 其 梯度 需要 直接 处 理 配 分 函数 。 有 些 其 他 方法 通过 训 

练 不 需要 计算 配 分 函数 的 模型 来 绕 开 这 个 问题 。 这 些 方法 大 多 数 都 基于 以 下 观察 

无 向 概率 模型 中 很 容易 计算 概率 的 比率 。 这 是 因为 配 分 函数 同时 出 现在 比率 的 分 子 
和 分 母 中 ， 互 相抵 消 : 

TRE E - 

p») i8) By VB 

伪 似 然 正 是 基于 条 件 概率 可 以 采用 这 种 基于 比率 的 形式 ， 因 此 可 以 在 没有 配 分 

函数 的 情况 下 进行 计算 。 假 设 我 们 将 x 分 为 a，b 和 c， 其 中 a 包含 我 们 想 要 的 条 
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件 分 布 的 变量 ，b 包含 我 们 想 要 条 件 化 的 变量 ，c 包含 除 此 之 外 的 变量 : 
py Pad) pab) Bab) o - 
ABIT B) Sees Y. bg MEM] 
以 上 计算 需要 边缘 化 a, 假设 a 和 ec 包含 的 变量 并 不 多 ， 那 么 这 将 是 非常 高 效 的 操 
作 。 在 极端 情况 下 ，a 可 以 是 单个 变量 ，e 可 以 为 空 ， 那 么 该 计算 仅 需 要 估计 与 间 

个 随机 变量 值 一 样 多 的 p. 

不 幸 的 是 ， 为 了 计算 对 数 似 然 ， 我 们 需要 边缘 化 很 多 变量 。 如 果 总 共有 n 个 变 

量 ， 那 么 我 们 必须 边缘 化 n 一 1 个 变量 。 根 据 概率 的 链 式 法 则 ， 我 们 有 








log p(x) = log p(x1) + logp(zz | x1) +--+ + logp(zs | xui). (18.19) 


在 这 种 情况 下 ,我们 已 经 使 a 尽 可 能 小 ,但 是 c 可 以 大 到 xzwe 如 果 我 们 简单 地 将 c 移 
到 b 中 以 减少 计算 代价 , 那么 会 发 生 什么 呢 ? 这 便 产 生 了 伪 似 然 pseudolikelihood ) 
(Besag, 1975) 目 标 函 数 ， 给 定 所 有 其 他 特征 xz_;， 预 测 特 征 c; 的 值 : 


S logp(zi | z (18.20) 
i—l 


如 果 每 个 随机 变量 有 个 不 同 的 值 ， 那 么 计算 5 需要 kxn 次 估计 ， 而 计算 配 
分 函数 需要 k^ 次 估计 。 

这 看 起 来 似乎 是 一 个 没有 道理 的 策略 ， 但 可 以 证 明 最 大 化 伪 似 然 的 估计 是 渐 近 
一 致 的 (Mase, 1995)。 当 然 ,， 在 数据 集 不 趋 近 于 大 采样 极限 的 情况 下 ， 伪 似 然 可 能 
现 出 与 最 大 似 然 估 计 不 同 的 结 

我 们 可 以 使 用 广义 伪 似 然 估 计 (generalized pseudolikelihood estimator ) 来 权 
衡 计算 复杂 度 和 最 大 似 然 表 现 的 偏差 (Huang and Ogata, 2002)。 广 义 伪 似 然 估 计 使 
用 m 个 不 同 的 集合 SO, i = 1,...,m 作为 变量 的 指标 出 现在 条 件 棒 的 左 侧 。 在 


m — 1l SO — 1,...,n 的 极端 情况 下 , 广义 伪 似 然 估计 会 变 为 对 数 似 然 。 在 m =n 
和 SO = {i} 的 极端 情况 下 ， 广 义 伪 似 然 会 恢复 为 伪 似 然 。 广 义 伪 似 然 估计 目标 函 
数 如 下 所 示 
Y logp(xso | X. so). (18.21) 
{=i 


基于 伪 似 然 的 方法 的 性 能 在 很 大 程度 上 取决 于 模型 是 如 何 使 用 的 。 对 于 完全 联 
合 分 布 p(x) 模型 的 任务 〈 例如 密度 估计 和 采样 )， 伪 似 然 通 常 效 果 不 好 。 对 于 在 训 
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练 期 间 只 需要 使 用 条 件 分 布 的 任务 而 言 ， 它 的 效果 比 最 大 似 然 更 好 ， 例 如 填充 少量 
的 缺失 值 。 如 果 数 据 具 有 规则 结构 ， 使 得 S 索引 集 可 以 被 设计 为 表现 最 重要 的 相关 
性 质 ， 同 时 略 去 相关 性 可 忽略 的 变量 , 那么 广义 伪 似 然 策略 将 会 非常 有 效 。 例 如 , 在 
自然 图 像 中 ， 空 间 中 相隔 很 远 的 像素 也 具有 弱 相 关 性 ， 因 此 广义 伪 似 然 可 以 应 用 于 
每 个 S 集 是 小 的 局 部 空间 窗口 的 情况 。 

伪 似 然 估计 的 一 个 弱点 是 它 不 能 与 仅 在 px) 上 提供 下 界 的 其 他 近似 一 起 使 用 ， 
例如 第 十 九 章 中 介绍 的 变 分 推断 。 这 是 因为 方 出 现在 了 分 母 中 。 分 母 的 下 界 仅 提供 
了 整个 表达 式 的 上 界 ， 然 而 最 大 化 上 界 没有 什么 意义 。 这 使 得 我 们 难以 将 伪 似 然 方 
法 应 用 于 诸如 深度 玻 尔 效 曼 机 的 深度 模型 ， 因 为 变 分 方法 是 近似 边缘 化 互相 作用 的 
多 层 隐 藏 变量 的 主要 方法 之 一 。 尽 管 如 此 ， 伪 似 然 仍 然 可 以 用 在 深度 学 习 中 ， 它 可 
以 用 于 单 层 模型 ， 或 使 用 不 基于 下 界 的 近似 推断 方法 的 深度 模型 中 。 

伪 似 然 比 SML 在 每 个 梯度 步骤 中 的 计算 代价 要 大 得 多 ， 这 是 由 于 其 对 所 有 条 
件 进 行 显 式 计算 。 但 是 ， 如 果 每 个 样本 只 计算 一 个 随机 选择 的 条 件 ， 那 么 广义 伪 
似 然 和 类 似 标准 仍然 可 以 很 好 地 运行 ， 从 而 使 计算 代价 降低 到 和 SML 差不多 的 程 
度 (Goodfellow et al., 2013d)。 

虽然 伪 似 然 佑 计 没 有 显 式 地 最 小 化 log 2， 但 是 我 们 仍然 认为 它 具 有 类 似 负 相 的 
效果 。 每 个 条 件 分 布 的 分 母 会 使 得 学 习 算法 降低 所 有 仅 具 有 一 个 变量 不 同 于 训练 样 
本 的 状态 的 概率 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 伪 似 然 渐 近 效 率 的 理论 分 析 ,。 
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得 分 匹配 (Hyvärinen, 2005b) 提供 了 另 一 种 训练 模型 而 不 需要 估计 2 或 其 导数 
的 一 致 性 方法 。 对 数 密度 关于 参数 的 导数 V。log p(x), 被 称 为 其 得 分 (score ), 得 分 
匹配 这 个 名 称 正 是 来 自 这 样 的 术语 。 得 分 匹配 采用 的 策略 是 ， 最 小 化 模型 对 数 密度 
和 数据 对 数 密度 关于 输入 的 导数 之 间 的 平方 差 期 望 : 














1 
L(x, 0) = 2 |V x log Pmodel (25 0)— Vz log Paata (2)||2 ) (18.22) 
1 
J(0) = 了 E paca (2) L (2, 0), (18.23) 
0* = min J(0). (18.24) 


0 
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该 目标 函数 避免 了 微分 配 分 函数 2 带 来 的 难题 ， 因 为 2 不 是 z 的 函数 ， 所 以 
VxZ = 0。 最 初 , 得 分 匹配 似乎 有 一 个 新 的 困难 : 计算 数据 分 布 的 得 分 需要 知道 生成 
训练 数据 的 真实 分 布 paata。 李 和 运 的 是 ， 最 小 化 L(x,0) 的 期 望 等 价 于 最 小 化 下 式 的 
期 望 





ed a A is td (18.25) 
9 = Ox? model , 2 ax; model 3 , . 
其 中 n 是 z 的 维度 。 

因为 得 分 匹配 需要 关于 x 的 导数 ， 所 以 它 不 适用 于 具有 离散 数据 的 模型 ， 但 是 
模型 中 的 潜 变 量 可 以 是 离散 的 。 

类 似 于 伪 似 然 ， 得 分 匹配 只 有 在 我 们 能 够 直接 估计 log B(x) 及 其 导数 的 时 候 才 
有 效 。 它 与 对 logp(x) 仅 提供 下 界 的 方法 不 兼容 ， 因 为 得 分 匹配 需要 logp(x) 的 导 
数 和 二 阶 导数 ， 而 下 限 不 能 传达 关于 导数 的 任何 信息 。 这 意味 着 得 分 匹配 不 能 应 用 
于 隐藏 单元 之 间 具 有 复杂 相互 作用 的 模型 估计 ， 例 如 稀 琉 编码 模型 或 深度 玻 尔 效 受 
机 。 虽 然 得 分 匹配 可 以 用 于 预 训练 较 大 模型 的 第 一 个 隐藏 屋 ， 但 是 它 没 有 被 用 于 预 
训练 较 大 模型 的 较 深 层 网 络 。 这 可 能 是 因为 这 些 模型 的 隐藏 层 通常 包含 一 些 离散 变 


EA 
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虽然 得 分 匹配 没有 明确 显示 具有 负 相 信息 ， 但 是 它 可 以 被 视 为 使 用 特定 类 型 马 
尔 可 夫 链 的 对 比 散 度 的 变种 (Hyvärinen, 2007a)。 在 这 种 情况 下 ， 马 尔 可 夫 链 并 没有 
采用 Gibbs 采样 ， 而 是 采用 一 种 由 梯度 引导 局 部 更 新 的 不 同方 法 。 当 局 部 更 新 的 大 
小 接近 于 零 时 ， 得 分 匹配 等 价 于 具有 这 种 马尔 可 夫 链 的 对 比 散 度 。 

Lyu (2009) 将 得 分 匹配 推广 到 离散 的 情况 〈 但 是 推导 有 误 ， 后 由 Marlin et al. 
(2010) 修正 ). Marlin et al. (2010) 发 现 , 广义 得 分 匹配 ( generalized score match- 
ing，GSM ) 在 许多 样本 观测 概率 为 0 的 高 维 离散 空间 中 不 起 作用 。 

一 种 更 成 功 地 将 得 分 匹配 的 基本 想法 扩展 到 离散 数据 的 方法 是 比率 匹配 ( ratio 
matching) (Hyvärinen, 2007b)。 比 率 匹配 特别 适用 于 二 值 数据 。 比 率 匹配 最 小 化 以 
下 目标 函数 在 样本 上 的 均值 : 


2 
1 
LM e= A (. ECO l (18.26) 


j=1 Pmodel(f (2),3;0) 


其 中 f(a, 7) 返回 7 处 位 值 取 反 的 x。 比 率 匹 配 使 用 了 与 伪 似 然 佑 计 相 同 的 策略 来 绕 
开 配 分 函数 ， 配 分 函数 会 在 两 个 概率 的 比率 中 抵消 掉 。Marlin et al. (2010) AB, YI 
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练 模型 给 测试 集 图 像 去 噪 时 ， 比 率 匹 配 的 效果 要 优 于 SML、 伪 似 然 和 GSM。 

类 似 于 伪 似 然 估 计 ， 比 率 匹 配对 每 个 数据 点 都 需要 n 个 5 的 估计 ， 因 此 每 次 更 
新 的 计算 代价 大 约 比 SML 的 计算 代价 高 出 n 倍 。 

与 伪 似 然 估计 一 样 ， 我 们 可 以 认为 比率 匹配 减 小 了 所 有 只 有 一 个 变量 不 同 于 训 
练 样本 的 状态 的 概率 。 由 于 比率 匹配 特别 适用 于 二 值 数据 ， 这 意味 着 在 与 数据 的 汉 
明 距 离 为 1 内 的 所 有 状态 上 ， 比 率 匹 配 都 是 有 效 的 。 

比率 匹配 还 可 以 作为 处 理 高 维 稀 艳 数据 ( 例如 词 计数 向 量 ) 的 基础 。 这 类 稀 玉 C 
数据 对 基于 MCMC 的 方法 提出 了 挑战 ， 因 为 以 密集 格式 表示 数据 是 非常 消耗 计算 资 
源 的 ,而 只 有 在 模型 学 会 表示 数据 分 布 的 稀 玉 性 之 后 , MCMC 采样 才 会 产生 稀 玻 值 。 
Dauphin and Bengio (2013) 设计 了 比率 匹配 的 无 偏 随机 近似 来 解决 这 个 问题 。 该 近 
似 只 估计 随机 选择 的 目标 子 集 ， 不 需要 模型 生成 完整 的 样本 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 比 率 匹 配 渐 近 效率 的 理论 分 
lr, o 























18.5 “去 噪 得 分 匹配 
某 些 情况 下 ， 我 们 希望 拟 合 以 下 分 布 来 正则 化 得 分 匹配 
Psmoothea (£) x J mtt y)dy (18.27) 


而 不 是 拟 合 真实 分 布 paata。 分 布 q(x | y) 是 一 个 损坏 过 程 ， 通 常 在 形成 m 的 过 程 中 
会 向 y 中 添加 少量 噪声 。 

去 噪 得 分 匹配 非常 有 用 ， 因 为 在 实践 中 ， 通 常 我 们 不 能 获取 真实 的 paatas MR 
能 得 到 其 样本 确定 的 经 验 分 布 。 给 定 足 够 容量 ， 任 何 一 致 估计 都 会 使 pmoael 成 为 一 
组 以 训练 点 为 中 心 的 Dirac 分 布 。 考 虑 在 第 5.4.5 节 介绍 的 渐 近 一 致 性 上 的 损失 ， 通 
过 4 来 平滑 有 助 于 缓解 这 个 问题 。Kingma and LeCun (2010b) 介绍 了 平滑 分 布 q 为 
正 态 分 布 噪声 的 正则 化 得 分 匹配 。 

回顾 第 14.5.1 节 ,有 一 些 自 编码 器 训练 算法 等 价 于 得 分 匹配 或 去 噪 得 分 匹配 。 因 
此 ， 这 些 自 编码 器 训练 算法 也 是 解决 配 分 函数 问题 的 一 种 方式 。 
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18.6 ”噪声 对 比 估计 


具有 难 求解 的 配 分 函数 的 大 多 数 模型 估计 都 没有 估计 配 分 函数 。SML 和 CD 只 
估计 对 数 配 分 函数 的 梯度 ,而 不 是 估计 配 分 函数 本 身 。 得 分 匹配 和 伪 似 然 避免 了 和 配 
分 函数 相关 的 计算 。 

噪声 对 比 估计 ( noise-contrastive estimation, NCE ) (Gutmann and Hyvari- 
nen, 2010) 采取 了 一 种 不 同 的 策略 。 在 这 种 方法 中 , 模型 估计 的 概率 分 布 被 明确 表示 
为 

log pmoadel(X) = log Pmoaa (x; 0) +c, (18.28) 
其 中 c 是 —logz(0) 的 近似 。 噪 声 对 比 估计 过 程 将 c 视 为 另 一 人 参数， 使 用 相同 的 算 
法 同时 估计 8 和 c， 而 不 是 仅仅 估计 0, 。 因 此 ， 所 得 到 的 log pmoaei(x) 可 能 并 不 完 
全 对 应 有 效 的 概率 分 布 ， 但 随 着 c 估计 的 改进 ， 它 将 变 得 越 来 越 接近 有 效 值 。 

这 种 方法 不 可 能 使 用 最 大 似 然 作 为 估计 的 标准 。 最 大 似 然 标准 可 以 设置 c 为 任 
意 大 的 值 ， 而 不 是 设置 c 以 创建 一 个 有 效 的 概率 分 布 。 

NCE 将 佑 计 p(x) 的 无 监督 学 习 问 题 转化 为 学 习 一 个 概率 二 元 分 类 器 ， 其 中 一 
个 类 别 对 应 模型 生成 的 数据 。 该 监督 学 习 问 题 中 的 最 大 似 然 估 计 定 义 了 原始 问题 的 
渐 近 一 致 估计 。 

具体 地 说 ， 我 们 引入 第 二 个 分 布 ， 曲 声 分 布 ( noise distribution ) puo, (x). I 
声 分 布 应 该 易于 估计 和 从 中 采样 。 我 们 现在 可 以 构造 一 个 联合 x 和 新 二 值 变量 y 的 
模型 。 在 新 的 联合 模型 中 ， 我 们 指定 











1 


Pjoins (V = 1) = 7， (18.29) 
Pjoint (X | y= 1) pmodal (X), (18.30) 

和 
Djoint (X | y= 0) = Pnoise( X). (18.31) 


MEZ, y 是 一 个 决定 我 们 从 模型 还 是 从 噪声 分 布 中 生成 x 的 开关 变量 。 

我 们 可 以 在 训练 数据 上 构造 一 个 类 似 的 联合 模型 。 在 这 种 情况 下 , 开关 变量 决定 
是 从 数据 还 是 从 噪声 分 布 中 抽取 x。 正 式 地 ，puain(y = 1) = 二，puain(x | y = 1) = 
Daata(X) , 和 Ptrain (x | y= 0) = Pnoise (X)。 


INCE 也 适用 于 具有 易于 处 理 的 ， 不 需要 引入 额外 参数 c 的 配 分 函数 的 问题 。 它 已 经 是 最 令 人 感 兴趣 的 ， 估 计 具 
有 复杂 配 分 函数 模型 的 方法 。 
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现在 我 们 可 以 应 用 标准 的 最 大 似 然 学 习 拟 合 pjoint 到 ptrain 的 监督 学 习 问 题 : 











0,c = arg MaxEx yn perain log Djoi (y | x). (18.32) 
0,c 





分 布 pjoint 本质 上 是 将 逻辑 回归 模型 应 用 于 模型 和 噪声 分 布 之 间 的 对 数 概率 之 











2i: P 
Pmodel (X 
join =1/x)= 18.33 
Pj «(y | ) Dmodei(X) 十 Puoise(X) ( ) 
1 
E I p Prose) (18.34) 
+ Pmodel (X) 
1 
H (18.35) 
l- exp (log tX 
Pnoise (X) ) 
DIL LE 18.36 
( È Pmodel (x) ( ) 
= 0 (log Pmoaei(X) = log puoise(x)). (18.37) 


因此 ， 只 要 log Pmodel 易于 反 向 传播 ， 并 且 如 上 所 述 ， Pnoise 应 易 于 估计 ( 以 便 
评估 Piom) 和 采样 ( 以 生成 训练 数据 )， 那么 NCE 就 易于 使 用 。 

NCE 能 够 非常 成 功 地 应 用 于 随机 变量 较 少 的 问题 ,但 即使 随机 变量 有 很 多 可 以 
取 的 值 时 ， 它 也 很 有 效 。 例 如 ， 它 已 经 成 功 地 应 用 于 给 定单 词 上 下 文 建 模 单词 的 条 
件 分 布 (Mnih and Kavukcuoglu, 2013)。 昌 然 单 词 可 以 采样 自 一 个 很 大 的 词汇 表 , 但 
是 只 能 采样 一 个 单词 。 

当 NCE 应 用 于 具有 许多 随机 变量 的 问题 时 ， 其 效率 会 变 得 较 低 。 当 逻辑 回归 分 
类 器 发 现 某 个 变量 的 取 值 不 大 可 能 时 ， 它 会 拒绝 这 个 噪声 样本 。 这 意味 着 在 Pmodel 
学 习 了 基本 的 边缘 统计 之 后 ， 学 习 进 程 会 大 大 减 慢 。 想 象 一 个 使 用 非 结构 化 高 斯 品 
声 作 为 Pnoise 来 学 习 面部 图 像 的 模型 。 如 果 Pmodel 学 会 了 眼睛 ， 就 算 没 有 学 习 任 何 
其 他 面部 特征 ， 比 如 嘴 ， 它 也 会 拒绝 几乎 所 有 的 非 结构 化 噪声 样本 。 

噪声 分 布 paoise 必须 是 易于 估计 和 采样 的 约束 可 能 是 过 于 严格 的 限制 。 当 paoise 
比较 简单 时 ， 大 多 数 采 样 可 能 与 数据 有 着 明显 不 同 ， 而 不 会 迫使 pasas 进行 显著 改 


进 。 


























类 似 于 得 分 匹配 和 伪 似 然 ， 如 果 p RETE, 那么 NCE 不 会 有 效 。 这 样 的 下 界 
能 够 用 于 构建 piont(y = 1] x) 的 下 界 ， 但 是 它 只 能 用 于 构建 iont(y = 0 | x) (出 现 
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在 一 半 的 NCE 对 象 中 ) 的 上 界 。 同 样 地 ，p,oise 的 下 界 也 没有 用 ， 因 为 它 只 提供 了 
Diont(y = 1| x) 的 上 界 。 

在 每 个 梯度 步骤 之 前 ， 模 型 分 布 被 复制 来 定义 新 的 噪声 分 布 时 ，NCE 定义 了 一 
个 被 称 为 自 对 比 估计 (self-contrastive estimation ) 的 过 程 ， 其 梯度 期 望 等 价 于 最 大 
似 然 的 梯度 期 望 (Goodfellow, 2014)。 特 殊 情况 的 NCE ( 噪声 采样 由 模型 生成 ) K 
明 最 大 似 然 可 以 被 解释 为 使 模型 不 断 学 习 以 将 现实 与 自身 发 展 的 信念 区 分 的 过 程 ， 
而 噪声 对 比 估计 通过 让 模型 区 分 现实 和 固定 的 基准 (噪声 模型 )， 我 们 降低 了 计算 成 
本 。 

在 训练 样本 和 生成 样本 ( 使 用 模型 能 量 函 数 定义 分 类 器 ) 之 间 进 行 分 类 以 得 
到 模型 的 梯度 的 方法 ， 已 经 在 更 早 的 时 候 以 各 种 形式 提出 来 (Welling et al., 2003b; 
Bengio, 2009)。 

噪声 对 比 估计 是 基于 良好 生成 模型 应 该 能 够 区 分 数据 和 噪声 的 想法 。 一 个 密切 
相关 的 想法 是 ， 良 好 的 生成 模型 能 够 生成 分 类 器 无 法 将 其 与 数据 区 分 的 样本 。 这 个 
想法 诞生 了 生成 式 对 抗 网 络 (第 20.10.4 节 )。 




















18.7 估计 配 分 函数 


尽管 本 章 中 的 大 部 分 内 容 都 在 避免 计算 与 无 向 图 模型 相关 的 难以 计算 的 配 分 函 
Jk 2Z(9)， 但 在 本 节 中 我 们 将 会 讨论 几 种 直接 估计 配 分 函数 的 方法 。 

估计 配 分 图 数 可 能 会 很 重要 ， 当 我 们 希望 计算 数据 的 归 一 化 似 然 时 ， 我 们 会 需 
要 它 。 和 在 评估 模型 ， 监 控 训 练 性 能 ， 和 比较 模型 时 ， 这 通常 是 很 重要 的 。 

例如 ， 假 设 我 们 有 两 个 模型 : 概率 分 布 为 p4(x; 04) = z- PAGG 04) 的 模型 Ma 
和 概率 分 布 为 pp(x; 0B) = z-PnCOcG05) 的 模型 Ms。 比较 模型 的 常用 方法 是 评估 
和 比较 两 个 模型 分 配给 独立 同 分 布 测试 数据 集 的 似 然 。 假 设 测 试 集合 m 个 样本 
(250,..., 20}, WR [[; pa(x 中 ;04) > [l ps(x 中 ;08)， 或 等 价 地 ， 如 果 


Y log pa(x; 04) — > 7 log pa(x; 65) > 0, (18.38) 





那么 我 们 说 Ma 是 一 个 比 Mp 更 好 的 模型 (或 者 ， 至 少 可 以 说 ， 它 在 测试 集 上 是 
一 个 更 好 的 模型 )， 这 是 指 它 有 一 个 更 好 的 测试 对 数 似 然 。 不 地 的 是 ， 测 试 这 个 条 件 
是 否 成 立 需 要 知道 配 分 函数 。 式 (18.38) 看 起 来 需要 估计 模型 分 配给 每 个 点 的 对 数 概 
率 ， 因 而 需要 估计 配 分 函数 。 我 们 可 以 通过 将 式 (18.38) 重新 转化 为 男 一 种 形式 来 简 
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化 情况 ， 在 该 形式 中 我 们 只 需要 知道 两 个 模型 的 配 分 函数 的 比率 : 
l , pA(x(?; 0 Z(0 
2 Jogpa(x 84) — 2 ,ogpa (x 6g) " 2 (ios a 2 ki A 





- B(x; Op) 
因此 ， 我 们 可 以 在 不 知道 任 一 模型 的 配 分 函数 ， 而 只 知道 它们 比率 的 情况 下 ， 判 断 
模型 Ma 是 否 比 模型 Mg 更 优 。 正 如 我 们 将 很 快 看 到 的 ， 在 两 个 模型 相似 的 情况 
下 ， 我 们 可 以 使 用 重要 采样 来 估计 比率 。 

然而 ， 如 果 我 们 想 要 计算 测试 数据 在 Ma 或 Mp 上 的 真实 概率 ， 我 们 需要 计 
算 配 分 函数 的 真实 值 。 如 果 我 们 知道 两 个 配 分 函数 的 比率 ,= Z6, HARNA 
道 两 者 中 一 个 的 实际 值 ， 比 如 说 Z(94)， 那 么 我 们 可 以 计算 男 一 个 的 值 : 
Z(05) 
Z(04) 








Z(0g) = rZ(04) = Z(04). (18.40) 





一 种 估计 配 分 函数 的 简单 方法 是 使 用 蒙特 卡 罗 方 法 ,例如 简单 重要 采样 。 以 下 
用 连续 变量 积分 来 表示 该 方法 ， 也 可 以 替换 积分 为 求 和 ， 很 容易 将 其 应 用 到 离散 变 
量 的 情况 。 我 们 使 用 提议 分 布 po(x) = g-Po(x), HEMSKA Zo 和 未 归 一 化 分 布 
B(x) 上 易于 采样 和 估计 。 





Z= f 万 (xjdx (18.41) 
Í 








Z][ re Mix 

L p ote )d (18.42) 

= Za | pox ae dx (18.43) 
z= m 2 m s.t. : x9 ~ po (18.44) 


在 最 后 一 行 ， 我 们 使 用 蒙特 卡 罗 估 计 ，, 使 用 从 po(x) 中 抽取 的 采样 计算 积分 2, 
然后 用 未 归 一 化 的 p. 和 提议 分 布 po 的 比率 对 每 个 采样 加 权 。 


这 种 方法 使 得 我 们 可 以 估计 配 分 函数 之 间 的 比率 : 
Ly LU 8t:xÜ ~ po. (18.45) 


然后 该 值 可 以 直接 比较 式 (18.39) 中 的 两 个 模型 。 
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如 果 分 布 po 接近 pi, BRA (18.44) 能 够 有 效 地 估计 配 分 函数 (Minka, 2005)。 
不 幸 的 是 ， 大 多 数 时候 p. 都 很 复杂 (通常 是 多 峰值 的 )， 并 且 定 义 在 高 维 空间 中 。 
很 难 找到 一 个 易 求 解 的 po ， 既 能 易于 评估 ， 又 能 充分 接近 pi 以 保持 高 质量 的 近似 。 
WR po 和 pi 不 接近 ,那么 po 的 大 多 数 采 样 将 在 pi 中 具有 较 低 的 概率 ， 从 而 在 
式 (18.44) 的 求 和 中 产生 ( 相对 的 ) 可 忽略 的 贡献 。 

如 果 求 和 中 只 有 少数 几 个 具有 显著 权重 的 样本 ， 那 么 将 会 由 于 高 方差 而 导致 估 
计 的 效果 很 差 。 这 可 以 通过 估计 Z, 的 方差 来 定量 地 理解 : 








Var (A) = ay ?) 2) (18.46) 


1 (x5 
o(x(9) 


4L CX 
"Si^: 





当 重要 性 权重 POCO) 存在 显著 偏差 时 ， 上 式 的 值 是 最 大 的 。 

我 们 现在 关注 两 个 解决 高 维 空间 复杂 分 布 上 估计 配 分 函数 的 方法 : 退火 重要 采 
样 和 桥 式 采样 。 两 者 都 始 于 上 面 介绍 的 简单 重要 采样 方法 ， 并 且 都 试图 通过 引入 缩 
小 po 和 pi 之 间 差 距 的 中 间 分 布 ， 来 解决 po 远离 p, 的 问题 。 





18.7.34 ”退火 重要 采样 


在 Dxr(polpi) 很 大 的 情况 下 C BB. po 和 p; ZILA EZ )， 一 种 称 为 退火 
重要 采样 (annealed importance sampling, AIS) 的 方法 试图 通过 引入 中 间 分 
布 来 缩小 这 种 差距 (Jarzynski, 1997; Neal, 2001)。 考 虑 分 布 序列 pai... pu, FEF 
0= 1 «m € € mna < m= 二 1， 分布 序列 中 的 第 一 个 和 最 后 一 个 分 别 是 po 和 
Pio 

这 种 方法 使 我 们 能 够 估计 定义 在 高 维 空间 多 峰 分 布 〈 例 如 训练 RBM 时 定义 
的 分 布 ) 上 的 配 分 函数 。 我 们 从 一 个 已 知 配 分 函数 的 简单 模型 ( 例如， 权重 为 零 
的 RBM ) 开始 ， 佑 计 两 个 模型 配 分 孔 数 之 间 的 比率 。 该 比率 的 估计 基 于 许多 个 相似 
分 布 的 比率 估计， 例如 在 零 和 学 习 到 的 权重 之 间 插 值 一 组 权重 不 同 的 RBM。 
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现在 我 们 可 以 将 比率 2 写作 


EL. e (18.47) 





ZZ B ocu 








Ext 18.48 
Zo Zm Zano Lnn_i ( ) 
n—1 

Zi; 

= Um (18.49) 
d m. 
j=0 


如 果 对 于 所 有 的 0 < 7 < n 一 1， 分布 py, 和 p, 足够 接近 ， 那 么 我 们 能 够 使 用 简 
单 的 重要 采样 来 估计 每 个 因子 eo 然后 使 用 这 些 得 到 z 的 估计 。 

这 些 中 间 分 布 是 从 哪里 来 的 呢 ? 正如 最 先 的 提议 分 布 po 是 一 种 设计 选择 ， 分 布 
序列 py... ps, 也 是 如 此 。 也 就 是 说 ， 它 们 可 以 被 特别 设计 为 特定 的 问题 领域 。 中 
间 分 布 的 一 个 通用 和 流行 选择 是 使 用 目标 分 布 pi 的 加 权 几 何平 均 ， 起 始 分 布 CRUS 
分 函数 是 已 知 的 ) 为 po: 

Do; X Dy io". (18.50) 

为 了 从 这 些 中 间 分 布 中 采样 ， 我 们 定义 了 一 组 马尔 可 夫 链 转移 函数 T, (a! | a), 
定义 了 给 定 m 转移 到 a! 的 条 件 概 率 分 布 。 转 移 算 子 T(x | 四 定义 如 下 ， 保 持 
py, (£) DÆ: 

pn; (£) = fo Te x )da’. (18.51) 
这 些 转移 可 以 被 构造 为 任何 马尔 可 夫 链 蒙特 卡 罗 方 法 (例如 ，Metropolis-Hastings， 
Gibbs )， 包 括 涉及 多 次 遍历 所 有 随机 变量 或 其 他 迭代 的 方法 。 


然后 ，AIS 采 样 方 法 从 po 开始 生成 样本 ， 并 使 用 转移 算 子 从 中 间 分 布 顺序 地 生 
成 采样 ， 直 到 我 们 得 到 目标 分 布 pi 的 采样 : 





e XT k—1...K 
-采样 any ~ po(x) 
SEEN k k k 
=- 采样 al) ~ Ty (xD) | alt?) 


Been k k k 
E mp Pe ice. | es) 
id 采样 mm Trn- ou | alt) si 


e a 
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对 于 采样 k， 通 过 连接 式 (18.49) 给 出 的 中 间 分 布 之 间 的 重要 性 权重 ， 我 们 可 以 
导出 目标 重要 性 权重 : 


PT k m k a k 
a) Brn (OH) Bae?) — Bat?) 
w "£u owe UU (E 
Doz ) Pn (25; ) Dn, 1 (Ein ) 


为 了 避免 诸如 上 溢 的 数值 问题 ， 最 佳 方法 可 能 是 通过 加 法 或 减法 计算 log w C? ， 而 不 
是 通过 概率 乘法 和 除法 计算 w, 

利用 由 此 定义 的 采样 过 程 和 式 (18.52) 中 给 出 的 重要 性 权重 ， 配 分 函数 的 比率 佑 
计 如 下 所 示 : 





(18.52) 





2 see Mw (18.53) 
0 


为 了 验证 该 过 程 定 义 的 重要 采样 方案 是 否 有 效 ， 我 们 可 以 展示 (Neal, 
2001) AIS 过 程 对 应 着 扩展 状态 空间 上 的 简单 重要 采样 ， 其 中 数据 点 采样 自 乘 
加 空间 [m ,... a, 21]。 为 此 ， 我 们 将 扩展 空间 上 的 分 布 定义 为 





DZ iid (18.54) 


-pim)Ts, 1 (Ern | 21) PRCA Y | y, 1) PN D (£n, | Tra), (18.55) 





其 中 T, 是 由 Ta 定义 的 转移 算 子 的 逆 ( 应 用 贝 叶 斯 规则 ): 





(2A £) = Te ax’). (18.56) 


将 以 上 代入 到 式 (18.55) 给 出 的 扩展 状态 空间 上 的 联合 分 布 中 ， 我 们 得 到 : 





D(2y, ; . .. 25, 19 21) (18.57) 
MMC M TT Pu 0.) 
~ Nn-1 Tl —1 Ni Ni 
=p (a1) e ma T (a | an) 8 mn. sua 18.58 
1(@1) B. 2" (a, | 2, Hl Nena) mi Ens | By: ) ( ) 
fi (ai) TT Press (oer) 
1\41 ~ itl Ni+ı 
=~ Ty, (m | $5... )P (£ |) ~ Tyi (Er 1 | 25). (18.59) 
Pa) ý i " n II Pri; Piss) 7 ls ý 


通过 上 面 给 定 的 采样 方案 ， 现 在 我 们 可 以 从 扩展 样本 上 的 联合 提议 分 布 g 上 生成 采 
样 ， 联 合 分 布 如 下 


QL y+ 05, E1) = Poly: ) T (Ena | Eri) ++ Tyr (Lt | Erni): (18.60) 
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式 (18.59) 给 出 了 扩展 空间 上 的 联合 分 布 。 将 g(a isis, 21) 作为 扩展 状态 空间 
上 的 提议 分 布 (我 们 会 从 中 抽样 )， 重要 性 权重 如 下 


= ~ k ~ ~ k 
wE) — P(Ln , "S s Enn d) — pila! 5 A Do, (as. ) By, (202) (18.61) 


bs k = k 
dP TB) Dn, (25a) — Pu (E) Bo (al?) - 





这 些 权 重 和 AIS 上 的 权重 相同 。 因 此 ， 我 们 可 以 将 AIS 解释 为 应 用 于 扩展 状态 上 的 
简单 重要 采样 ， 其 有 效 性 直接 来 源 于 重要 采样 的 有 效 性 。 


退火 重要 采样 首先 由 Jarzynski (1997) 发 现 , 然后 由 Neal (2001) 再 次 独立 发 现 。 
目前 它 是 估计 无 向 概率 模型 的 配 分 函数 的 最 常用 方法 。 其 原因 可 能 与 一 篇 有 影响 力 
的 论文 (Salakhutdinov and Murray, 2008) AX, 该 论文 并 没有 讨论 该 方法 相对 于 其 
他 方法 的 优点 ， 而 是 介绍 了 将 其 应 用 于 估计 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 配 分 
关于 AIS 估计 性 质 ( 例如 ,方差 和 效率 ) 的 讨论 ， 请 参看 Neal (2001)。 











18.7.2 tke 


类 似 于 AIS， 桥 式 采 样 (Bennett, 1976) 是 另 一 种 处 理 重 要 采样 缺点 的 方法 。 并 
非 将 一 系列 中 间 分 布 连接 在 一 起 ， 桥 式 采 样 依赖 于 单个 分 布 p. (BORA), FER 
知 配 分 函数 的 分 布 po 和 分 布 p，( 我 们 试图 估计 其 配 分 函数 Z) 之 间 插 值 。 

桥 式 采样 估计 比率 Zi/Zo: po 和 p. 之 间 重 要 性 权重 期 望 与 pi 和 p, 之 间 重 要 
性 权重 的 比率 ， 























ZA. » PD. (a T3 B®) (18.62) 


k m k 
b fx so 


如 果 仔 细 选 择 桥 式 采 样 p, ， 使 其 与 po 和 pi 都 有 很 大 重合 的 话 ， 那 么 桥 式 采样 能 够 
允许 两 个 分 布 (或 更 正式 地 ，Dkz(pollp1) ) 之 间 有 较 大 差距 〈 相对 标准 重要 采样 而 


言 )。 





可 以 表明 ， 最 优 的 桥 式 采样 是 pP) (x) oc POOL, Er r= Z1/Zo。 这 似乎 
是 一 个 不 可 行 的 解决 方案 ， 因 为 它 似乎 需要 我 们 信 计 数值 Z/Z RT, TUA 
BN r 开始 估计 ， 然 后 使 用 得 到 的 桥 式 采样 逐步 选 代 以 改进 估计 (Neal, 2005)。 也 就 


是 说 ,我 们 会 迭代 地 重新 估计 比率 ， 并 使 用 每 次 迭代 更 新 r 的 值 。 
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链接 重要 采样 AIS 和 桥 式 采样 各 有 优点 。 如 果 Drr(zollzi) 不 太 大 (由 于 po 和 pi 
足够 接近 ) 的 话 ， 那 么 桥 式 采 样 能 比 ATS 更 高 效 地 估计 配 分 函数 比率 。 然 而 ， 如 果 
对 于 单个 分 布 ps 而 言 ， 两 个 分 布 相距 太 远 难以 桥接 差距 ， 那 么 AIS 至 少 可 以 使 用 许 
多 潜在 中 间 分 布 来 跨越 po 和 pi 之 间 的 差距 。Neal (2005) 展示 链接 重要 采样 方法 如 
何 利 用 桥 式 采样 的 优点 ， 桥 接 AIS 中 使 用 的 中 间 分 布 ， 并且 显著 改进 了 整个 配 分 区 
数 的 估计。 


在 训练 期 间 估 计 配 分 函数 虽然 AIS 已 经 被 认为 是 用 于 估计 许多 无 向 模型 配 分 函 
数 的 标准 方法 ,但 是 它 在 计算 上 代价 很 高 ， 以 致 其 在 训练 期 间 仍然 不 很 实用 。 研 究 
者 探索 了 一 些 在 训练 过 程 中 估计 配 分 函数 的 替代 方法 。 

使 用 桥 式 采样 、 短 链 AIS 和 并 行 回 火 的 组 合 ，Desjardins et al. (2011) 设计 了 一 
种 在 训练 过 程 中 追踪 RBM 配 分 函数 的 方法 。 该 策略 的 基础 是 ,在 并 行 回 火 方法 操作 
的 每 个 温度 下 ，RBM 配 分 函数 的 独立 估计 会 一 直 保 持 。 作 者 将 相 邻 链 (来 自 并 行 回 
K) 的 配 分 函数 比率 的 桥 式 采样 估计 和 跨越 时 间 的 AIS 估计 组 合 起 来 ， 提 出 一 个 在 
每 次 迭代 学 习 时 估计 配 分 函数 的 ( 日 方差 较 小 的 ) 方法 。 

本 章 中 描述 的 工具 提供 了 许多 不 同 的 方法 ， 以 解决 难处 理 的 配 分 函数 问题 ， 但 
是 在 训练 和 使 用 生成 模型 时 ， 可 能 会 存在 一 些 其 他 问题 。 其 中 最 重要 的 是 我 们 接 下 
来 会 遇 到 的 难以 推断 的 问题 。 
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许多 概率 模型 很 难 训练 的 原因 是 很 难 进 行 推 产 。 在 深度 学 习 中 ， 通 党 我 们 有 一 
系列 可 见 变量 v 和 一 系列 潜 变 量 ho 推断 困难 通常 是 指 难 以 计算 p(h | v) 或 其 期 望 。 
而 这 样 的 操作 在 一 些 诸如 最 大 似 然 学 习 的 任务 中 往往 是 必需 的 。 

许多 仅 含 一 个 隐藏 层 的 简单 图 模型 会 定义 成 易于 计算 p(h | v) 或 其 期 望 的 形式 ， 
例如 受 限 玻 尔 兹 曼 机 和 概率 PCA。 不 幸 的 是 ， 大 多 数 具 有 多 层 隐藏 变量 的 图 模型 的 
后 验 分 布 都 很 难处 理 。 对 于 这 些 模型 而 言 ， 精 确 推 斯 算法 需要 指数 量 级 的 运行 时 间 。 
即使 一 些 只 有 单 层 的 模型 ， 如 稀 玻 编码 ， 也 存在 着 这 样 的 问题 。 

在 本 章 中 ， 我 们 将 会 介绍 几 个 用 来 解决 这 些 难 以 处 理 的 推断 问题 的 技巧 。 稍 后 ， 
在 第 二 十 章 中 ， 我 们 还 将 描述 如 何 将 这 些 技巧 应 用 到 训练 其 他 方法 难以 雪 效 的 概率 
模型 中 ， 如 深度 信念 网 络 、 深 度 玻 尔 兹 曼 机 。 

在 深度 学 习 中 难以 处 理 的 推断 闻 题 通常 源 于 结构 化 图 模型 中 潜 变 量 之 间 的 相互 
作用 。 读 者 可 以 参考 图 19.1 的 几 个 例子 。 这 些 相 互 作用 可 能 是 无 向 模型 的 直接 相互 
作用 ， 也 可 能 是 有 向 模型 中 同一 个 可 见 变量 的 共同 祖先 之 间 的 “ 相 消 解释 ”作用 。 
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OVO 


图 19.1: 深度 学 习 中 难以 处 理 的 推断 问题 通常 是 由 于 结构 化 图 模型 中 潜 变 量 的 相互 作用 。 这 些 
相互 作用 产生 于 一 个 潜 变 量 与 男 一 个 潜 变 量 或 者 当 V- 结 构 的 子 节点 可 观察 时 与 更 长 的 激活 路 径 
相连 。( 左 ) 一 个 隐藏 单元 存在 连接 的 半 受 限 波 尔 兹 曼 机 ( semi-restricted Boltzmann Machine ) 
(Osindero and Hinton, 2008)。 由 于 存在 大 量 潜 变 量 的 团 ， 洪 变量 的 直接 连接 使 得 后 验 分 布 难以 处 
H, CF) 一 个 深度 玻 尔 兹 曼 机 , 被 分 层 从 而 使 得 不 存在 层 内 连接 ,由 于 层 之 间 的 连接 其 后 验 分 布 仍 
然 难以 处 理 。( 右 ) 当 可 见 变 量 可 观察 时 这 个 有 向 模型 的 潜 变 量 之 间 存 在 相互 作用 ， 因 为 每 两 个 潜 
变量 都 是 共 父 。 即 使 拥有 上 图 中 的 某 一 种 结构 ， 一 些 概率 模型 依然 能 够 获得 易于 人 处理 的 关于 潜 变 
量 的 后 验 分 布 。 如 果 我 们 选择 条 件 概 率 分 布 来 引入 相对 于 图 结构 描述 的 额外 的 独立 性 这 种 情况 也 
是 可 能 出 现 的 。 举 个 例子 ， 概率 PCA 的 图 结构 如 右 图 所 示 ， 然 而 由 于 其 条 件 分 布 的 特殊 性 质 ( 带 
有 相互 正 交 基 向 量 的 线性 高 斯 条 件 分 布 ) 依然 能 够 进行 简单 的 推断 。 
















































































































































































19.1 ”把 推断 视 作 优化 问题 


精确 推断 问题 可 以 描述 为 一 个 优化 问题 ， 有 许多 方法 正 是 由 此 解决 了 推断 的 困 
难 。 通 过 近似 这 样 一 个 潜在 的 优化 问题 ， 我 们 往往 可 以 推导 出 近似 推断 算法 。 

为 了 构造 这 样 一 个 优化 问题 ， 假 设 我 们 有 一 个 包含 可 见 变量 v 和 潜 变 量 h 的 概 
率 模型 。 我 们 和 希望 计算 观察 数据 的 对 数 概率 log p(v; 0)。 有 时 候 如 果 边 缘 化 消去 h 的 
操作 很 费时 ， 我 们 会 难以 计算 log p(w; 9)。 作 为 替代 ， 我 们 可 以 计算 一 个 log p(w; 0) 
的 下 界 L(w, 9,dq)。 这 个 下 界 被 称 为 证 据 下 界 (evidence lower bound, ELBO )。 这 个 
下 界 的 另 一 个 常用 名 称 是 负 变 分 自由 能 (variational free energy )。 上 有 具体 地 ， 这 个 证 
据 下 界 是 这 样 定义 的 : 


£(v,0,q) = log p(v; 0) — DrrL(a(h | v)||p(h | v; 0)), (19.1) 





其 中 q 是 关于 h 的 一 个 任意 概率 分 布 。 
因为 logp(v) 和 £(v,0,q) 之 间 的 距离 是 由 KL 散 度 来 衡量 的 ， 且 KL 散 度 总 是 
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非 负 的 ， 我 们 可 以 发 现 L 总 是 小 于 等 于 所 求 的 对 数 概率 。 当 且 仅 当 分 布 q 完全 相等 
于 p(h | v) 时 取 到 等 号 。 

令 人 吃惊 的 是 ， 对 于 某 些 分 布 9， 计 算 C 可 以 变 得 相当 简单 。 通 过 简单 的 代数 
运算 我 们 可 以 把 C 重 写成 一 个 更 加 简单 的 形式 : 
































£(v,0,q) =log p(v; 6) — Dri (alh | v)||p(h | v; 0)) (19.2) 
q(h | v) 
=] :8) — Ej] 19. 
og p(v; ) h~q 8 (h v) ( 9.3) 
. q(h | v 
—log p(v; 0) — En~q log a (19.4) 
p(vi8) 
—logp(v;8) — Ep~allog gq(h | v) — log p(h, v; 0) +logp(v;@)| (19.5) 
= — En~allog q(h | v) — log p(h, v; 6)]. (19.6) 














这 也 给 出 了 证 据 下 界 的 标准 定义 : 











£ (v, 0, q) = En~allogp(h, v)] + H(q). (19.7) 





对 于 一 个 较 好 的 分 布 g 的 选择 来 说 ，L 是 容易 计算 的 。 对 任意 分 布 q 的 选择 来 
说 , C 提供 了 似 然 函数 的 一 个 下 界 。 越 好 地 近似 p(h | v) 的 分 布 q(h| v)， 得 到 的 下 
界 就 越 紧 ， 换 言 之 ， 就 是 与 logp(v) 更 加 接近 。 当 g(h |v) = p(h|wv) 时 ， 这 个 近似 
是 完美 的 ， 也 意味 着 L(v,0,q) = log p(v; 0). 

因此 我 们 可 以 将 推断 问题 看 作 是 找 一 个 分 布 q 使 得 C 最 大 的 过 程 。 精 确 推断 能 
够 在 包含 分 布 p(h | v) 的 函数 族 中 搜索 一 个 函数 ,完美 地 最 大 化 Lo ERER, 我 们 
将 会 讲 到 如 何 通过 近似 优化 寻找 分 布 g 的 方法 来 推导 出 不 同形 式 的 近似 推断 。 我 们 
可 以 通过 限定 分 布 9 的 形式 或 者 使 用 并 不 彻底 的 优化 方法 来 使 得 优化 的 过 程 更 加 高 
效 ( 却 更 粗略 )， 但 是 优化 的 结果 是 不 完美 的 ， 不 求 彻底 地 最 大 化 C， 而 只 要 显著 地 
提升 C。 

无 论 我 们 选择 什么 样 的 分 布 *，Z 始终 是 一 个 下 界 。 我 们 可 以 通过 选择 一 个 更 简 
单 抑或 更 复杂 的 计算 过 程 来 得 到 对 应 的 更 松 抑或 更 紧 的 下 界 。 通 过 一 个 不 彻底 的 优 
化 过 程 或 者 将 分 布 q 做 很 强 的 限定 〈 并 且 使 用 一 个 彻底 的 优化 过 程 ) 我 们 可 以 获得 
一 个 很 差 的 分 布 9， 但 是 降低 了 计算 开销 。 


ww ai bbc. com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
540 第 十 九 章 ”近似 推断 


19.2 ”期 望 最 大 化 


我 们 介绍 的 第 一 个 最 大 化 下 界 L 的 算法 是 期望 最 大 化 (expectation maximiza- 
tion, EM ) 算法 。 在 潜 变 量 模 型 中 ， 这 是 一 个 非常 常见 的 训练 算法 。 在 这 里 我 们 描 
述 Neal and Hinton (1999) 所 提出 的 EM 算法 。 与 大 多 数 我 们 在 本 章 中 介绍 的 其 他 
算法 不 同 的 是 ，EM 并 不 是 一 个 近似 推断 算法 ， 而 是 一 种 能 够 学 到 近似 后 验 的 算法 。 

EM 算法 由 交替 迭代 ， 直 到 收敛 的 两 步 运 算 组 成 : 





e 卫 步 (expectation step) : 令 0(0 表示 在 这 一 步 开 始 时 的 参数 值 。 对 任何 我 们 
想 要 训练 的 (对 所 有 的 或 者 小 批量 数据 均 成 立 ) 索引 为 i 的 训练 样本 v0, S 
q(h? | v) = p(h® | w90;9(0)。 通 过 这 个 定义 ， 我 们 认为 q 在 当前 参数 OO F 
定义 。 如 果 我 们 改变 0, ABA p(h | v; 0) 将 会 相应 地 变化 ， 但 是 q(h| v) 还 是 
不 变 并 且 等 于 p(h | v0), 


e M & (maximization step ): 使 用 选择 的 优化 算法 完全 地 或 者 部 分 地 关于 9 最 
大 化 


» Xf, 0. o). (19.8) 


这 可 以 被 看 作 通过 坐标 上 升 算法 来 最 大 化 .C。 在 第 一 步 中 ， 我 们 更 新 分 布 q 来 
最 大 化 LC， 而 在 为 一 步 中 ， 我 们 更 新 0 来 最 大 化 Lo 

基于 潜 变 量 模型 的 随机 梯度 上 升 可 以 被 看 作 是 一 个 EM 算法 的 特例 ， 其 中 M 
步 包 括 了 单 次 梯度 操作 。EM 算法 的 其 他 变种 可 以 实现 多 次 梯度 操作 。 对 一 些 模 型 
族 来 说 ，M 步 甚至 可 以 通过 推出 解析 解 直接 完成 ， 不同 于 其 他 方法 ， 在 给 定 当前 q 
的 情况 下 直接 求 出 最 优 解 。 

尽管 EE 步 采用 的 是 精确 推断 ， 我 们 仍然 可 以 将 EM 算法 视 作 是 某 种 程度 上 的 近 
似 推 断 。 具 体 地 说 ，M 步 假设 一 个 分 布 q 可 以 被 所 有 的 9 值 分 享 。 当 M 步 越 来 越 
远离 E 步 中 的 OO) 时 ， 这 将 会 导致 C 和 真实 的 logp(v) 之 间 出 现 差距 。 幸 运 的 是 ， 
在 进入 下 一 个 循环 时 ,也 步 把 这 种 差距 又 降 到 了 0。 

EM 算法 还 包含 一 些 不 同 的 见解 。 首 先 , 它 包 含 了 学 习 过 程 的 一 个 基本 框架 ,就 
是 我 们 通过 更 新 模型 参数 来 提高 整个 数据 集 的 似 然 ， 其 中 缺失 变量 的 值 是 通过 后 验 
分 布 来 估计 的 。 这 种 特定 的 性 质 并 不 是 EM 算法 独 有 的 。 例 如 ， 使 用 梯度 下 降 来 最 
大 化 对 数 似 然 函 数 的 方法 也 有 相同 的 性 质 。 计 算 对 数 似 然 函 数 的 梯度 需要 对 隐藏 单 
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元 的 后 验 分 布 求 期 望 。EM 算法 另 一 个 关键 的 性 质 是 当 我 们 移动 到 另 一 个 0 时 候 ， 
我 们 仍然 可 以 使 用 旧 的 分 布 g。 在 传统 机 器 学 习 中 ， 这 种 特有 的 性 质 在 推导 大 M 
步 更 新 时 候 得 到 了 广泛 的 应 用 。 在 深度 学 习 中 ， 大 多 数 模 型 太 过 于 复杂 以 致 于 在 最 
优 大 M 步 更 新 中 很 难得 到 一 个 简单 的 解 。 所 以 EM 算法 的 第 二 个 特质 ,更 多 为 其 所 
独 有 ， 较 少 被 使 用 。 


19.3 ”最 大 后 验 推断 和 稀疏 编码 


我 们 通常 使 用 推断 (inference ) 这 个 术语 来 指 代 给 定 一 些 其 他 变量 的 情况 下 计 
算 某 些 变量 概率 分 布 的 过 程 。 当 训练 带 有 潜 变 量 的 概率 模型 时 ， 我 们 通常 关注 于 计 
算 p(h | v)。 男 一 种 可 选 的 推断 形式 是 计算 一 个 缺失 变量 的 最 可 能 值 来 代替 在 所 有 可 
能 值 的 完整 分 布 上 的 推断 。 在 潜 变 量 模型 中 ， 这 意味 着 计算 





h' —argmax p(h| v). (19.9) 
h 


这 被 称 作 最 大 后 验 (Maximum A Posteriori ) HEW, MJEK MAP 推断 。 

MAP 推断 并 不 被 视 作 是 一 种 近似 推断 ， 它 只 是 精确 地 计算 了 最 有 可 能 的 一 个 
hr 。 然 而， 如 果 我 们 希望 设计 一 个 最 大 化 Lv, h, q) 的 学 习 过 程 ， 那 么 把 MAP 推断 
视 作 是 输出 一 个 q 值 的 学 习 过 程 是 很 有 帮助 的 。 在 这 种 情况 下 , 我 们 可 以 将 MAP HE 
朵 视 作 是 近似 推断 ， 因 为 它 并 不 能 提供 一 个 最 优 的 qe 

我 们 回 过 头 来 看 看 第 19.1 节 中 所 描述 的 精确 推 新 ， 它 指 的 是 关于 一 个 在 无 限制 
的 概率 分 布 族 中 的 分 布 q 使 用 精确 的 优化 算法 来 最 大 化 











L(v, 0, q) = Ep~allog p(h, v)] + H (a). (19.10) 





我 们 通过 限定 分 布 q 属于 某 个 分 布 族 ， 能 够 使 得 MAP 推断 成 为 一 种 形式 的 近似 推 
Hr. Ai, RIST q 满足 一 个 Dirac 分 布 : 


q(h | v) = à(h — p). (19.11) 


这 也 意味 着 现在 我 们 可 以 通过 p 来 完全 控制 分 布 9。 通 过 将 C 中 不 随 pe 变化 的 项 
丢弃 ， 我 们 只 需 解决 一 个 优化 问题 : 


L^ = argmax logp(h = p, v), (19.12) 
m 
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这 等 价 于 MAP 推断 问题 


h* = argmax p(h | v). (19.13) 
h 











因此 我 们 能 够 证 明 一 种 类 似 于 EM 算法 的 学 习 算 法 ， 其 中 我 们 轮流 迭代 两 步 ， 
一 步 是 用 MAP 推断 估计 出 rr,， 男 一 步 是 更 新 9 来 增 大 logp(h*, v) A EM 算法 角 
度 看 ， 这 也 是 对 L 的 一 种 形式 的 坐标 上 升 ， 交 蔡 迭 代 时 通过 推断 来 优化 关于 gq AY L 
以 及 通过 参数 更 新 来 优化 关于 0 的 C。 作 为 一 个 整体 ， 这 个 算法 的 正确 性 可 以 得 到 
保证 ， 因 为 C Æ logp(v) 的 下 界 。 在 MAP 推断 中 ,这 个 保证 是 无 效 的 ， 因 为 Dirac 
分 布 的 焙 的 微分 趋 近 于 负 无 穷 ， 使 得 这 个 界 会 无 限 地 松 。 然 而 ， 人 为 加 入 一 些 u B5) 
噪声 会 使 得 这 个 界 又 有 了 意义 。 

MAP 推断 作为 特征 提取 器 以 及 一 种 学 习 机 制 被 广泛 地 应 用 在 了 深度 学 习 中 。 它 
主要 用 于 稀 玻 编码 模型 中 。 

我 们 回 过 头 来 看 第 13.4 市 中 的 稀 玖 编码 ， 稀 玖 编码 是 一 种 在 隐藏 单 元 上 加 上 了 
诱导 稀 玻 性 的 先 验 知识 的 线性 因子 模型 。 一 个 常用 的 选择 是 可 分 解 的 Laplace 先 验 ， 














表示 为 
sies S exp(—Alhil) (19.14) 
可 见 的 节点 是 由 一 个 线性 变化 加 上 噪声 生成 的 : 
plv | h) = N(v; Wh + b, 8^! I). (19.15) 


分 布 p(h | v) 难以 计算 ， 甚 至 难以 表达 。 每 一 对 hi, h; 变量 都 是 v 的 母 节 点 。 
这 也 意味 着 当 v 可 被 观察 时 ， 图 模型 包含 了 一 条 连接 hi 和 hj; 的 活跃 路 径 。 因 此 
p(h| v) 中 所 有 的 隐藏 单元 都 包含 在 了 一 个 巨大 的 团 中 。 如 果 是 高 斯 模型 ， 那 么 这 些 
相互 作用 关系 可 以 通过 协 方差 矩阵 来 高 效 地 建 模 。 然 而 稀疏 型 先 验 使 得 这 些 相 互 作 
用 关系 并 不 服从 高 斯 分 布 。 

分 布 p(x | h) 的 难处 理性 导致 了 对 数 似 然 及 其 梯度 也 很 难得 到 。 因 此 我 们 不 能 
使 用 精确 的 最 大 似 然 估 计 来 进行 学 习 。 取 而 代 之 的 是 ， 我 们 通过 MAP 推断 以 及 最 
大 化 由 以 h 为 中 心 的 Dirac 分 布 所 定义 而 成 的 ELBO 来 学 习 模 型 参数 。 

如 果 我 们 将 训练 集中 所 有 的 向 量 疡 拼 成 矩阵 五 ， 并 将 所 有 的 向 量 v 拼 起 来 组 成 
矩阵 了 ， 那 么 稀 玻 编码 问题 意味 着 最 小 化 

JH, W= uj (v-mw). 


2 
e E i,j 
üj ij 





(19.16) 


ww ai bbt.com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
19.4. RAAB Ae RDF A 543 


为 了 避免 如 极端 小 的 H 和 极端 大 的 三 这 样 的 病态 的 解 ， 大 多 数 稀疏 编码 的 应 用 包 
含 了 权重 衰减 或 者 对 H 列 范 数 的 限制 。 

我 们 可 以 通过 交 蔡 迭代 ， 分别 关 于 五 和 W 最 小 化 J 的 方式 来 最 小 化 Jo 两 个 
子 问题 都 是 凸 的 。 事 实 上 ， 关 于 OW 的 最 小 化 问题 就 是 一 个 线性 回归 问题 。 然 而 关于 
这 两 个 变量 同时 最 小 化 J 的 问题 通常 并 不 是 凸 的 。 

关于 H 的 最 小 化 问题 需要 某 些 特别 设计 的 算法 ,例如 特征 符号 搜索 方法 (Lee 
et al., 2007)。 





19.4 ” 变 分 推断 和 变 分 学 习 


我 们 已 经 说 明 过 了 为 什么 证 据 下 界 Lv, 0,9) 是 log p(w; 0) 的 一 个 下 界 、 如 何 将 
推断 看 作 是 关于 分 布 q 最 大 化 L 的 过 程 以 及 如 何 将 学 习 看 作 是 关于 参数 9 最 大 化 C 
的 过 程 。 我 们 也 讲 到 了 EM 算法 在 给 定 了 分 布 q 的 条 件 下 能 够 进行 大 学 习 步 又 ， 而 
基于 MAP 推断 的 学 习 算法 则 是 学 习 一 个 p(h | v) 的 点 估计 而 非 推 断 整 个 完整 的 分 
布 。 在 这 里 我 们 介绍 一 些 变 分 学 习 中 更 加 通用 的 算法 。 

变 分 学 习 的 核心 思想 就 是 我 们 在 一 个 关于 q 的 有 约束 的 分 布 族 上 最 大 化 C。 选 
择 这 个 分 布 族 时 应 该 考虑 到 计算 EE, log p(h, v) 的 难 易 度 。 一 个 典型 的 方法 就 是 添加 
分 布 g 如 何 分 解 的 假设 。 

一 种 常用 的 变 分 学 习 的 方法 是 加 入 一 些 限制 使 得 g 是 一 个 因子 分 布 : 


q(h | v) — [La | v). (19.17) 























这 被 称 为 均值 场 ( mean-field) 方法 。 更 一 般 地 说 ， 我 们 可 以 通过 选择 分 布 q 的 形 
式 来 选择 任何 图 模型 的 结构 ， 通 过 选择 变量 之 间 的 相互 作用 来 灵活 地 决定 近似 程度 
的 大 小 。 这 种 完全 通用 的 图 模型 方法 被 称 为 结构 化 变 分 推断 (structured variational 
inference ) (Saul and Jordan, 1996). 

变 分 方法 的 优点 是 我 们 不 需要 为 分 布 4 设 定 一 个 特定 的 参数 化 形式 。 我 们 设 定 
它 如 何 分 解 ， 之 后 通过 解决 优化 问题 来 找 出 在 这 些 分 解 限 制 下 最 优 的 概率 分 布 。 对 
离散 型 潜 变 量 来 说 ， 这 意味 着 我 们 使 用 传统 的 优化 技巧 来 优化 描述 分 布 9 的 有 限 个 
变量 。 对 连续 型 潜 变 量 来 说 ， 这 意味 着 我 们 使 用 一 个 被 称 为 变 分 法 的 数学 分 文 工 具 
来 解决 函数 空间 上 的 优化 问题 。 然 后 决定 哪 一 个 函数 来 表示 分 布 9。 变 分 法 是 “ 变 分 
学 习 ” 或 者 “ 变 分 推 朵 ”这些 名 字 的 来 因 ， 尽 管 当 潜 变 量 是 离散 时 变 分 法 并 没有 用 武 
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之 地 。 当 遇 到 连续 型 潜 变 量 时 ， 变 分 法 不 需要 过 多 地 人 工 选 择 模型 ， 是 一 种 很 有 用 
的 工具 。 我 们 只 需要 设 定 分 布 g 如何 分 解 ， 而 不 需要 去 猜测 一 个 特定 的 能 够 精确 近 
似 原 后 验 分 布 的 分 布 qo 

因为 L(v, 0, q) 被 定义 成 logp(w; 0) — DkL(q(h | v)|p(h | wv;0))， 我们 可 以 认为 
关于 q 最 大 化 L 的 问题 等 价 于 (关于 q) 最 小 化 Dkr(q(h | v)|p(h | v). FEA 
情况 下 ， 我 们 要 用 q KWE p。 然 而 ,与 以 前 方法 不 同 ， 我们 使 用 KL 散 度 的 相 
反方 向 来 拟 合 一 个 近似 。 当 我 们 使 用 最 大 似 然 估 计 来 用 模型 拟 合 数据 时 ， 我 们 最 小 
化 DkL(paatallpmoaa)。 如 图 3.6 所 示 ， 这 意味 着 最 大 似 然 鼓励 模型 在 每 一 个 数据 达 
到 高 概率 的 地 方 达到 高 概率 ， 而 基于 优化 的 推断 则 鼓励 了 q 在 每 一 个 真实 后 验 分 
布 概率 低 的 地 方 概率 较 小 。 这 两 种 基于 KL 散 度 的 方法 都 有 各 自 的 优点 与 缺点 。 选 
择 哪 一 种 方法 取决 于 在 具体 每 一 个 应 用 中 哪 一 种 性 质 更 受 偏好 。 在 基于 优化 的 推断 
问题 中 ， 从 计算 角度 考虑 ， 我 们 选择 使 用 DkL(g(h | v)p(h] wv))。 具 体 地 说 ,计算 
Dia (a(h | v)|p(h | v)) 涉及 到 了 计算 分 布 q 下 的 期 望 。 所 以 通过 将 分 布 q 设计 得 较 
为 简单 ,我 们 可 以 简化 求 所 需要 的 期 望 的 计算 过 程 。KL 散 度 的 相反 方向 需要 计算 真 
实 后 验 分 布下 的 期 望 。 因 为 真实 后 验 分 布 的 形式 是 由 模型 的 选择 决定 的 ， 所 以 我 们 
不 能 设计 出 一 种 能 够 精确 计算 Di (p(h | v)la(h | v)) 的 开销 较 小 的 方法 。 











19.4.1 AMPTE 


关于 离散 型 潜 变 量 的 变 分 推断 相对 来 说 比较 直接 。 我 们 定义 一 个 分 布 g， 通 常 
分 布 q 的 每 个 因子 都 由 一 些 离散 状态 的 可 查询 表格 定义 。 在 最 简单 的 情况 中 ,hh 
是 二 值 的 并 且 我 们 做 了 均值 场 假定 ， 分布 q 可 以 根据 每 一 个 hi 分 解 。 在 这 种 情况 
下 ,我 们 可 以 用 一 个 向 量 h 来 参数 化 分 布 g，hh 的 每 一 个 元 素 都 代表 一 个 概率 ， 即 
q(h; —1|v)— hio 

在 确定 了 如 何 表示 分 布 9 以 后 ， 我 们 只 需要 优化 它 的 参数 。 在 离散 型 潜 变 量 模 
型 中 ， 这 是 一 个 标准 的 优化 问题 。 基 本 上 分 布 q 的 选择 可 以 通过 任何 优化 算法 解决 ， 
比如 梯度 下 降 算法 。 

因为 它 在 许多 学 习 算 法 的 内 循环 中 出 现 ， 所 以 这 个 优化 问题 必须 可 以 很 快 求解 。 
为 了 追求 速度 ， 我 们 通常 使 用 特殊 设计 的 优化 算法 。 这 些 算法 通常 能 够 在 极 少 的 循 
环 内 解决 一 些小 而 简单 的 问题 。 一 个 常见 的 选择 是 使 用 不 动 点 方程 ， 换 句 话 说 ， 就 
是 解 关于 hy 的 方程 





£ — 0. (19.18) 
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我 们 反复 地 更 新 h 不 同 的 元 素 直 到 满足 收敛 准则 。 

为 了 具体 化 这 些 描述 ， 我 们 接 下 来 会 讲 如 何 将 变 分 推断 应 用 到 — (E 88 c a 83 
( binary sparse coding ) 模型 ( 这 里 我 们 所 描述 的 模型 是 Henniges et al. (2010) 提出 
的 ， 但 是 我 们 采用 了 传统 、 通 用 的 均值 场 方法 ， 而 原文 作者 采用 了 一 种 特殊 设计 的 
算法 ) 中 。 数 学 推导 过 程 非常 详细 ， 为 希望 完全 了 解 我 们 描述 过 的 变 分 推 亲 和 变 分 
学 习 高 级 概念 描述 的 读者 所 准备 。 而 对 于 并 不 计划 推导 或 者 实现 变 分 学 习 算 法 的 读 
者 来 说 ， 可 以 放心 跳 过 ， 直 接 阅 读 下 一 节 ， 这 并 不 会 遗漏 新 的 高 级 概念 。 建 议 那些 
从 事 二 值 稀 玻 编 码 研究 的 读者 可 以 重新 看 一 下 第 3.10 节 中 描述 的 一 些 经 常 在 概率 模 
型 中 出 现 的 有 用 的 函数 性 质 。 我 们 在 推导 过 程 中 随意 地 使 用 了 这 些 性 质 ， 并 没有 特 
别 强调 它们 。 

在 二 值 稀 琉 编码 模型 中 ， 输 入 ve R"， 是 由 模型 通过 添加 高 斯 噪声 到 mm 个 或 
有 或 无 的 不 同 成 分 的 和 而 生成 的 。 每 一 个 成 分 可 以 是 开 或 者 关 的 ， 对 应 着 隐藏 单 
Ju he (0,1): 











p(h; = 1) = o(bi), (19.19) 
plv | h) = N (v; Wh, 3"), (19.20) 




















其 中 bP ER, WET AAEE, BET 
ET WITAM EAE 
使 用 最 大 似 然 来 训练 这 样 一 个 模型 需要 对 参数 进行 求 导 。 我 们 考虑 对 其 中 一 


wwaibbt.com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
546 第 十 九 章 ”近似 推断 





个 偏 置 进行 求 导 的 过 程 : 






































x log p(v) (19.21) 
E (19.22) 
"Elan (19.23) 

3i; oe |h) (19.24) 
S Bar) (19:25) 
-Zra d (19.26) 
三 De ay, log P(A) (19.27) 


这 需要 计算 p(h|v) FWE, PERE, plih | v) 是 一 个 很 复杂 的 分 布 。 关 于 
p(h, v) 和 p(h | v) 的 图 结构 可 以 参考 图 19.2 。 隐 藏 单元 的 后 验 分 布 对 应 的 是 关于 隐 
藏 单元 的 完全 图 ， 所 以 相对 于 暴力 算法 ， 变 量 消去 算法 并 不 能 有 助 于 提高 计算 期 望 
的 效率 。 

















图 19.2: 包含 四 个 隐藏 单元 的 二 值 稀 玻 编码 的 图 结构 。( 堪 ) p(h, v) 的 图 结构 。 要 注意 边 是 有 向 的 ， 
每 两 个 隐藏 单元 都 是 每 个 可 见 单元 的 共 父 。( 右 ) p(h, v) 的 图 结构 。 为 了 解释 共 父 之 间 的 活跃 路 径 ， 
后 验 分 布 所 有 隐藏 单元 之 间 都 有 边 。 











取而代之 的 是 ,我 们 可 以 应 用 变 分 推 新 和 变 分 学 习 来 解决 这 个 难点 。 
我 们 可 以 做 一 个 均值 场 近似 : 
q(h | v) = [ [ai | 9). (19.28) 
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二 值 稀 朴 编码 中 的 潜 变 量 是 二 值 的 ， 所 以 为 了 表示 可 分 解 的 q 我 们 假设 对 m 
个 Bernoulli 分 布 q(h; | v) 建 模 。 表 示 Bernoulli 分 布 的 一 种 很 自然 的 方法 是 使 用 一 
个 概率 向 量 h, WE q(h;| v) = 应 。 为 了 避免 计算 中 的 误差 ， 比 如 说 计算 log hy 时 ， 
我 们 对 hi 添加 一 个 约束 ， 即 hi 不 等 于 0 或 者 1。 

我 们 将 会 看 到 变 分 推断 方程 理论 上 永远 不 会 赋予 A 0 或 者 1。 然 而 在 软件 实现 
过 程 中 ， 机 器 的 舍 入 误差 会 导致 0 或 者 1 的 值 。 在 二 值 稀 蚊 编码 的 软件 实现 中 ,我 
们 希望 使 用 一 个 没有 限制 的 变 分 参数 向 量 z 以 及 通过 关系 h= o(z) 来 获得 h。 因 此 
通过 使 用 等 式 log o(z;) = —C(—2;) 来 建立 sigmoid 函数 和 softplus 函数 的 关系 ， 我 们 
可 以 放心 地 在 计算 机 上 计算 log hi. 

在 开始 二 值 稀 玻 编码 模型 中 变 分 学 习 的 推导 时 ， 我 们 首先 说 明了 均值 场 近似 的 
使 用 可 以 使 得 学 习 过 程 更 加 简单 。 















































证 据 下 界 可 以 表示 为 
£(v, 0, q) (19.29) 
=E),~, [log p(h, v)] + H (q) (19.30) 
=En~allogp(h) + log p(v | h) — logq(h | v)] (19.31) 
= Enna Solos (hy) + Y tox vi | h) 一 - 2 jloga(h; | v) (19.32) 
-> [hs log o(bi) — log fy) - (1 — hi) log o(—5;) — log(1 — h;))] (19.33) 
+ fna [Xe Vel E (vi wn) (19.34) 
y [/ (log c (b;) — log hi) + (1 — h;)(loge(—5;) — log(1— h;))] (19.35) 
£238 LE -a(i — 2u; Wi + |W, Ves You] 
i=1 j kzj 


(19.36) 


尽管 这 些 方程 从 美学 观点 来 看 有 些 不 尽 如 人 意 。 他 们 展示 了 C 可 以 被 表示 为 少量 简 
单 的 代数 运算 。 因 此 证 据 下 界 C 是 易于 处 理 的 。 我 们 可 以 把 C 看 作 是 难以 处 理 的 对 
数 似 然 函 数 的 一 个 替代 。 

原则 上 说 ， 我 们 可 以 使 用 关于 v 和 h 的 梯度 上 升 。 这 会 成 为 一 个 推 新 和 学 习 算 
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法 的 完美 组 合 。 但 是 ,由 于 两 个 原因 , 我 们 往往 不 这 么 做 。 第 一 点 , 对 每 一 个 v 我 们 
需要 存储 h。 我 们 通常 更 加 偏向 于 那些 不 需要 为 每 一 个 样本 都 准备 内 存 的 算法 。 如 
果 我 们 需要 为 每 一 个 样本 都 存储 一 个 动态 更 新 的 向 量 ， 使 得 算法 很 难处 理 上 亿 的 样 
本 。 第 二 个 原因 就 是 为 了 能 够 识别 v 的 内 容 ， 我 们 希望 能 够 有 能 力 快速 提取 特征 ho 
在 实际 应 用 场景 中 ， 我 们 需要 在 有 限时 间 内 计算 出 h。 

由 于 以 上 两 个 原因 ， 我 们 通常 不 会 采用 梯度 下 降 来 计算 均值 场 参数 hs Hui 4 
之 的 是 ， 我 们 使 用 不 动 点 方程 来 快速 估计 。 

不 动 点 方程 的 核心 思想 是 我 们 寻找 一 个 关于 h 的 局 部 极 大 点 ， 满 足 
ViL(v,0,h) = 0。 我 们 无 法 同时 高 效 地 计算 所 有 h 的 元 素 。 然而 ,我们 可 以 
解决 单个 变量 的 问题 : 




















£(v, 0, h) = 0. (19.37) 





我 们 可 以 迭代 地 将 这 个 解 应 用 到 i = 1,...,m， 然 后 重复 这 个 循环 直到 我 们 满足 
了 收敛 准则 。 常 见 的 收敛 准则 包含 了 当 整 个 循环 所 改进 的 C 不 超过 预 设 的 容 差 量 时 
停止 ,或 者 是 循环 中 改变 的 h 不 超过 某 个 值 时 停止 。 

在 很 多 不 同 的 模型 中 ， 和 迭代 的 均值 场 不 动 点 方程 是 一 种 能 够 提供 快速 变 分 推 源 
的 通用 算法 。 为 了 使 它 更 加 具体 ， 我 们 详细 地 讲 一 下 如 何 推 导出 二 值 稀 玖 编码 模型 
的 更 新 过 程 。 

首先 ,我 们 给 出 了 对 hi 的 导数 表达 式 。 为 了 得 到 这 个 表达 式 , 我 们 将 式 (19.36) 代 
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人 到 式 (19.37) 的 左边 : 
9 £(v, 0, h) (19.38) 
a 
0 T 





》 [fj og o(b;) — log ij) + (1 = h;)(ogo(—b;) log — hy)| — (19.39) 


j=l 
1 ; " n "" 
十 bp 区 a — bj (4 — w; W,..h + 5 W? phr + 52 Wawata) | 
j=1 k 





ah: 

















lk 
(19.40) 
=log o(b;) — log h; — 1 + log(1 — h;) + 1 — logo(—b;) (19.41) 
n 1 4 
T »» Bj (m. 一 一 y Wj,k wid (19.42) 
j=1 kzi 
A A 1 > 
=b; — log h; + log(1 — hi)+ v BW. — : W'8W.—-M W8W.h; (19.43) 
jzi 
为 了 应 用 固定 点 更 新 的 推断 规则 ， 我 们 通过 令 式 (19.43) 等 于 0 来 解 hi: 
A 1 , 
Fi 





此 时 ， 我 们 可 以 发 现 图 模型 中 的 推 关 和 循环 神经 网 络 之 间 存 在 着 紧密 的 联系 。 
具体 地 说 ， 均 值 场 不 动 点 方程 定义 了 一 个 循环 神经 网 络 。 这 个 神经 网 络 的 任务 就 是 
完成 推 新 。 我 们 已 经 从 模型 描述 的 角度 介绍 了 如 何 推导 这 个 网 络 ， 但 是 直接 训练 这 
个 推断 网 络 也 是 可 行 的 。 有 关 这 种 思路 的 一 些 想 法 在 第 二 十 章 中 有 所 描述 。 

在 二 值 稀 玻 编码 模型 中 ， 我 们 可 以 发 现 式 (19.44) 中 描述 的 循环 网 络 连接 包含 
了 根据 相 邻 隐藏 单元 变化 值 来 反复 更 新 当前 隐藏 单元 的 操作 。 输 入 层 通常 给 隐藏 单 
元 发 送 一 个 固定 的 信息 w 8 三， 然而 隐藏 单元 不 断 地 更 新 互相 传送 的 信息 。 有 具体 地 
说 ， 当 h, Wh; 两 个 单元 的 权重 向 量 平行 时 ， 它 们 会 互相 抑制 。 这 也 是 一 种 形式 的 
竞争 一 一 两 个 解释 输入 的 隐藏 单元 之 间 ， 只 有 一 个 解释 得 更 好 的 才 被 允许 继续 保持 
活跃 。 在 二 值 稀 玻 编 码 的 后 验 分 布 中 ,均值 场 近 似 试 图 捕获 到 更 多 的 相 消 解释 相互 
作用 ， 从 而 产生 了 这 种 竞争 。 事 实 上 ， 相 消解 释 效 应 会 产生 一 个 多 峰值 的 后 验 分 布 ， 
以 致 于 如 果 我 们 从 后 验 分 布 中 采样 ， 一 些 样 本 在 一 个 单元 是 活跃 的 ， 其 他 的 样本 在 
另 一 个 单元 活跃 ， 只 有 很 少 的 样本 能 够 两 者 都 处 于 活跃 状态 。 不 幸 的 是 , 相 消解 释 作 
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用 无 法 通过 均值 场 中 因子 分 布 4 来 建 模 ， 因 此 建 模 时 均值 场 近似 只 能 选择 一 个 峰值 。 
这 个 现象 的 一 个 例子 可 以 参考 图 3.6 。 


我 们 将 式 (19.44) 重 写成 等 价 的 形式 来 揭示 一 些 深层 的 含义 : 


icone (9-3 wh) ew- wow (19.45) 
在 这 种 新 的 形式 中 ,我 们 可 以 将 v 一 并 ji Wih 看 作 是 输入 ， 而 不 是 v. 因此, 我 
们 可 以 把 第 i 个 单元 视 作 给 定 其 他 单元 编码 时 给 v 中 的 剩余 误差 编码 。 由 此 我 们 可 
以 将 稀 玻 编码 视 作 是 一 个 迭代 的 自 编码 器 ， 将 输入 反复 地 编码 解码 ， 试 图 在 每 一 轮 
迭代 后 都 能 修复 重 构 中 的 误差 。 

在 这 个 例子 中 ， 我 们 已 经 推导 出 了 每 一 次 更 新 单个 结 点 的 更 新 规则 。 如 果 能 够 
同时 更 新 更 多 的 结 点 ， 那 会 更 令 人 满意 。 菏 些 图 模型 ， 比 如 深度 玻 尔 兹 曼 机 ， 我 们 
可 以 同时 解 出 有 中 的 许多 元 素 。 不 幸 的 是 ， 二 值 稀 疏 编码 并 不 适用 这 种 块 更 新 。 取 
而 代 之 的 是 ， 我 们 使 用 一 种 被 称 为 衰减 ( damping). 的 启发 式 技 巧 来 实现 块 更 新 。 
在 衰减 方法 中 ， 对 A 中 的 每 一 个 元 素 我 们 都 可 以 解 出 最 优 值 ， 然 后 对 于 所 有 的 值 都 
在 这 个 方向 上 移动 一 小 步 。 这 个 方法 不 能 保证 每 一 步 都 能 增加 C, 但 是 对 于 许多 模 
型 都 很 有 效 。 关 于 在 信息 传输 算法 中 如 何 选择 同步 程度 以 及 使 用 衰减 策略 可 以 参考 
Koller and Friedman (2009) 。 




















19.4.2 Bae 





在 继续 介绍 变 分 学 习 之 前 ， 我 们 有 必要 简单 地 介绍 一 种 变 分 学 习 中 重要 的 数学 
TH: 变 分 法 (calculus of variations )。 

许多 机 器 学 习 的 技巧 是 基于 寻找 一 个 输入 向 量 9 € R" oig NEP J(0), 
使 得 它 取 到 最 小 值 。 这 个 步骤 可 以 利用 多 元 微 积分 以 及 线性 代数 的 知识 找到 满足 
VeJ(0) = 0 的 临界 点 来 完成 。 在 某 些 情况 下 ,我 们 和 希望 能 够 解 一 个 函数 f(z)， 比 如 
当 我 们 和 希望 找到 一 些 随 机 变量 的 概率 密度 函数 时 。 正 是 变 分 法 能 够 让 我 们 完成 这 个 
目标 。 

PRA 广 的 函数 被 称 为 泛 函 (functional) J[f]。 正 如 我 们 许多 情况 下 对 一 个 函 
数 求 关于 以 向 量 的 元 素 为 变量 的 偏 导 数 一 样 ,我们 可 以 使 用 泛 函 导数 ( functional 
derivative )， 即 在 任意 特定 的 z 值 ， 对 一 个 泛 函 JS] 求 关 于 函数 f(x) 的 导数 ， 这 
也 被 称 为 变 分 导数 (variational derivative), Wek J 的 关于 函数 f 在 点 a ABB PR 
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导数 被 记 作 ziJ- 
完整 正式 的 泛 函 导 数 的 推导 不 在 本 书 的 范围 之 内 。 对 于 我 们 的 目标 而 言 ， 了 解 
可 微分 函数 f (a) 以 及 带 有 连续 导数 的 可 微分 函数 gy, z) 就 足够 了 
0 


sn | se at - 5, (9).2). (19.46) 


为 了 使 上 述 等 式 更 加 直观 ， 我 们 可 以 把 f(z) 看 作 是 一 个 有 着 无 穷 不 可 数 多 元 素 的 向 
量 ， 由 一 个 实数 向 量 x 表示 。 在 这 里 ( 看 作 是 一 个 不 完全 的 介绍 )， 这 种 关系 式 中 描 
述 的 泛 函 导数 和 向 量 9 € R" 的 导数 相同 : 





O . ð ’ 
35, 29915) = Fp 98%). (19.47) 
2 了 KA 





在 其 他 机 器 学 习 文献 中 的 许多 结果 则 使 用 了 更 为 通用 的 欧 拉 - 拉 格 朗 日 方程 Euler- 
Lagrange Equation )， 它 能 够 使 得 g 不 仅 依 赖 于 f 的 导数 而 且 也 依赖 于 f 的 值 。 但 
是 在 本 书 中 我 们 不 需要 这 个 通用 版 本 。 

为 了 关于 一 个 向 量 优化 某 个 函数 ， 我 们 求 出 了 这 个 函数 关于 这 个 向 量 的 梯度 ， 
然后 找 这 个 梯度 中 每 一 个 元 素 都 为 0 的 点 。 类 似 地 ， 我 们 可 以 通过 寻找 一 个 函数 使 
得 泛 了 渔 导数 的 每 个 点 都 等 于 0 从 而 来 优化 一 个 泛 函 。 

下 面 介绍 一 个 该 过 程 如 何 和 运行 的 例子 ， 我 们 考虑 寻找 一 个 定义 在 r€R 上 的 有 
ERAT HS PE PRI, FATT Sk RAF RR p(x) WWE, XE SCAH 
下 : 














万 四 = —E, log p(z). (19.48) 





对 于 连续 的 值 ， 这 个 期 望 可 以 被 看 作 一 个 积分 : 
Hlp| = 一 f ra) ospr. (19.49) 


我 们 不 能 简单 地 仅仅 关于 函数 p(z) 最 大 化 五 [p]， 因 为 那样 的 话 结果 可 能 不 是 一 
个 概率 分 布 。 为 了 解决 这 个 问题 ， 我 们 需要 使 用 一 个 拉 格 明日 乘 子 来 添加 一 个 分 布 
ple) 积分 值 为 1 的 约束 。 同 样 地 ， 当 方差 增 大 时 ， 焙 也 会 无 限制 地 增加 。 因 此 ， 寻 
找 哪 一 个 分 布 有 最 大 炉 这 个 问题 是 没有 意义 的 。 但 是 ,在 给 定 固定 的 方差 o? 时 ,我 
们 可 以 寻找 一 个 最 大 粒 的 分 布 。 最 后 ， 这 个 问题 还 是 从 定 的 ， 因 为 在 不 改变 粒 的 条 
件 下 一 个 分 布 可 以 被 随意 地 改变 。 为 了 获得 一 个 唯一 的 解 ， 我 们 再 加 一 个 约束 : 分 
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布 的 均值 必须 为 KW。 那 么 这 个 问题 的 拉 格 半日 泛 函 如 下 : 
Tires x( f novis -1) +E 


= f (div) + dap(o)e + Aaple)(e — n — pla) tog p(x) dr — Ai — ps = oe 




















z] — u) +A3(E[(w — 4)"] o?) + H[p] — (19.50) 














(19.51) 
为 了 关于 p 最 小 化 拉 格 朗 日 乘 子 ,我 们 令 泛 函 导数 等 于 0: 
Va, E = hy + Aga + àz (£ — u)? — 1 — log p(x) = 0. (19.52) 





óp(x) 


这 个 条 件 告诉 我 们 ple) 的 泛 函 形式 。 通 过 代数 运算 重组 上 述 方程 ， 我 们 可 以 得 
到 





p(z) = exp (Xi + àx + àz(£ — u)? = 1). (19.53) 


我 们 并 没有 直接 假设 p(x) 取 这 种 形式 ， 而 是 通过 最 小 化 泛 函 从 理论 上 得 到 了 这 
个 p(z) 的 表达 式 。 为 了 解决 这 个 最 小 化 问题 ,我 们 需要 选择 A 的 值 来 确保 所 有 的 约 
束 都 能 够 满足 。 我 们 有 很 大 的 自由 去 选择 A. 因为 只 要 满足 约束 , 拉 格 朗 日 关于 入 这 
个 变量 的 梯度 就 为 0。 为 了 满足 所 有 的 约束 ， 我 们 可 以 令 A = 1- logo v27, = 0, 
As = 一 区? ， 从 而 得 到 








p(z) =N (z; u, o?). (19.54) 





这 也 是 当 我 们 不 知道 真实 的 分 布 时 总 是 使 用 正 态 分 布 的 一 个 原因 。 因 为 正 态 分 布 拥 
有 最 大 的 炉 ， 我 们 通过 这 个 假定 来 保证 了 最 小 可 能 量 的 结构 。 

当 寻 找 炉 的 拉 格 朗 日 泛 函 的 临界 点 并 且 给 定 一 个 固定 的 方差 时 ， 我 们 只 能 找到 
一 个 对 应 最 大 信 的 临界 点 。 那 最 小 化 信 的 概率 密度 函数 是 什么 样 的 呢 ?” 为 什么 我 们 
无 法 发 现 对 应 着 极 小 点 的 第 二 个 临界 点 呢 ? 原因 是 没有 一 个 特定 的 函数 能 够 达到 最 
小 的 箭 值 。 当 函数 把 越 多 的 概率 密度 加 到 zx = to M =u- 两 个 点 上 ， 越 少 的 
概率 密度 到 其 他 点 上 时 ， 它 们 的 箭 值 会 减少 ， 而 方差 却 不 变 。 然 而 任何 把 所 有 的 权 
重 都 放 在 这 两 点 的 函数 的 积分 都 不 为 1， 不 是 一 个 有 效 的 概率 分 布 。 所 以 不 存在 一 
个 最 小 炉 的 概率 密度 函数 ， 就 像 不 存在 一 个 最 小 的 正 实数 一 样 。 然 而 ， 我 们 发 现存 
在 一 个 收敛 的 概率 分 布 的 序列 ， 收 全 到 权重 都 在 两 个 点 上 。 这 种 情况 能 够 退化 为 混 
合 Dirac 分 布 。 因 为 Dirac 分 布 并 不 是 一 个 单独 的 概率 密度 函数 ， 所 以 Dirac 分 布 或 
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者 混合 Dirac 分 布 并 不 能 对 应 函数 空间 的 一 个 点 。 所 以 对 我 们 来 说 ， 当 寻找 一 个 泛 
函 导数 为 0 的 函数 空间 的 点 时 ， 这 些 分 布 是 不 可 见 的 。 这 就 是 这 种 方法 的 局 限 之 处 。 
诸如 Dirac 分 布 这 样 的 分 布 可 以 通过 其 他 方法 被 找到 ， 比 如 可 以 先 猜 测 一 个 解 ， 然 后 
证 明 它 是 满足 条 件 的 。 





当 我 们 的 图 模型 包含 连续 型 潜 变 量 时 ， 我 们 仍然 可 以 通过 最 大 化 C 进行 变 分 推 
断 和 变 分 学 习 。 然 而 ， 我 们 需要 使 用 变 分 法 来 实现 关于 q(h| v) 最 大 化 Lo 

在 大 多 数 情况 下 ， 研 究 者 并 不 需要 解决 任何 变 分 法 的 问题 。 取 而 代 之 的 是 ， 均 
值 场 固 定点 迭代 更 新 有 一 个 通用 的 方程 。 如 果 我 们 做 了 均值 场 近似 : 





q(h | v) — [La | v), (19.55) 


并 且 对 任何 的 j Ai 固定 q(h; | v), 那么 只 需要 满足 分 布 p 中 任何 联合 分 布 变量 的 
概率 值 不 为 0， 我 们 就 可 以 通过 归 一 化 下 面 这 个 未 归 一 的 分 布 














G(h; | v) = exp (En_,~q(h_;|v) logP(v, h)) (19.56) 


来 得 到 最 优 的 q(h; | v)。 在 这 个 方程 中 计算 期 望 就 能 得 到 正确 的 q(h; | v) 的 表达 式 。 
我 们 只 有 在 希望 提出 一 种 新 形式 的 变 分 学 习 算 法 时 才 需 要 使 用 变 分 法 来 直接 推导 q 
的 函数 形式 。 式 (19.56) 给 出 了 适用 于 任何 概率 模型 的 均值 场 近似 。 

A (19.56) 是 一 个 不 动 点 方程 ， 对 每 一 个 i 它 都 被 迭代 地 反复 使 用 直到 收敛 。 然 
而 ， 它 还 包含 着 更 多 的 信息 。 它 还 包含 了 最 优 解 取 到 的 泛 函 形式 ， 无 论 我 们 是 否 能 
够 通过 不 动 点 方程 来 解 出 它 。 这 意味 着 我 们 可 以 利用 方程 中 的 泛 函 形式 ， 把 其 中 一 
些 值 当成 参数 ， 然 后 通过 任何 我 们 想 用 的 优化 算法 来 解决 这 个 问题 。 

我 们 拿 一 个 简单 的 概率 模型 作为 例子 ， 其 中 潜 变 量 满足 he R?， 可 见 变量 只 有 
一 个 vs。 假设 p(h) = N(h; 0, I) WR p(v | h) =N (v; wh; 1), 我 们 可 以 积 掉 h 来 简 
化 这 个 模型 ,结果 是 关于 v 的 高 斯 分 布 。 这 个 模型 本 身 并 不 有 趣 。 只 是 为 了 说 明 变 
分 法 如 何 应 用 在 概率 建 模 之 中 ， 我 们 才 构 造 了 这 个 模型 。 
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忽略 归 一 化 常数 时 ， 真 实 的 后 验 分 布 如 下 : 





p(h | v) (19.57) 
xp(h, v) (19.58) 
=p(hi)p(h2)p(v | h) (19.59) 
exp ( L h3 + (v — hıwı — hzw2)°]) (19.60) 











一 exp ( ji hà + v? + how? + h2w2 — 2vhiw, — 2vh5ws + 2hyw, haw;]). 
(19.61) 
在 上 式 中 ,我 们 发 现 由 于 带 有 hy, hs 乘积 项 的 存在 ， 真 实 的 后 验 并 不 能 关于 h, hz 
分 解 。 
应 用 式 (19.56) ， 我 们 可 以 得 到 


























(hı | v) (19.62) 
= exp (Eu, 40219 log p(v, h)) (19.63) 
一 exp ( 一 3 Eno~g(hale) [hi + A2 + v? + hw? + hows (19.64) 

= 2Quhyw, — 2vhgws + 2h, wi hows]. (19.65) 





从 这 里 , 我 们 可 以 发 现 其 中 我 们 只 需要 从 q(ha | v) 中 获得 两 个 有 效 值 : En; ~q(n|e) [22] 


























和 Es, aio [h 引 。 把 这 两 项 记 作 (ha) 和 《h2)， 我 们 可 以 得 到 : 
lh | 0) =exp(=5 [hi + (h3) +0? + hw? + (h3) (19.66) 
= 2uh wy = 2v(h3) ws 十 2h1 wy (h3)w;]). (19.67) 


从 这 里 ， 我 们 可 以 发 现 q 的 泛 函 形式 满足 高 斯 分 布 。 因 此 ， 我 们 可 以 得 到 
q(h | v) = N(h; p, B71), 其 中 p 和 对 角 的 B 是 变 分 参数 ， 我 们 可 以 使 用 任何 方法 
来 优化 它 。 有 必要 再 强调 一 下 ， 我 们 并 没有 假设 q 是 一 个 高 斯 分 布 ， 这 个 高 斯 的 形 
式 是 使 用 变 分 法 来 关于 分 布 q 最 大 化 L 而 推导 出 来 的 。 在 不 同 的 模型 上 应 用 相同 的 
方法 可 能 会 得 到 不 同 泛 函 形式 的 分 布 q。 

当然 ， 上 述 模 型 只 是 为 了 说 明 情况 的 一 个 简单 例子 。 深 度 学 习 中 关于 变 分 学 习 
中 连续 型 变量 的 实际 应 用 可 以 参考 Goodfellow et al. (2013f)。 
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19.4.4 ”学 习 和 推断 之 间 的 相互 作用 
在 学 习 算 法 中 使 用 近似 推断 会 影响 学 习 的 过 程 ， 反 过 来 学 习 的 过 程 也 会 影响 推 
断 算 法 的 准确 性 。 


具体 来 说 ， 训 练 算法 倾向 于 朝 使 得 近似 推断 算法 中 的 近似 假设 变 得 更 加 真实 的 
方向 来 适应 模型 。 当 训练 参数 时 ， 变 分 学 习 增 加 











Eng log p(v, h). (19.68) 





对 于 一 个 特定 的 v， 对 于 q(h| v) 中 概率 很 大 的 h 它 增加 了 p(h| v); 对 于 q(h | v) 
中 概率 很 小 的 h 它 减 小 了 p(h | v)。 

这 种 行为 使 得 我 们 做 的 近似 假设 变 得 合理 。 如 果 我 们 用 单 峰值 近似 后 验 来 训练 
模型 那么 所 得 具有 真实 后 验 的 模型 会 比 我 们 使 用 精确 推断 训练 模型 获得 的 模型 更 
接近 单 峰 值 。 

因此 , 估计 变 分 近似 对 模型 的 破坏 程度 是 很 困难 的 。 存 在 几 种 估计 log p(v) 的 方 
式 。 通 常 我 们 在 训练 模型 之 后 估计 log p(v; 9)， 然 后 发 现 它 和 L(w, 9,9) 的 差距 是 很 
小 的 。 从 这 里 我 们 可 以 得 出 结论 , 对 于 特定 的 从 学 习 过 程 中 获得 的 0 来 说 , 变 分 近似 
是 很 准确 的 。 然 而 我 们 无 法 直接 得 到 变 分 近似 普遍 很 准确 或 者 变 分 近似 几乎 不 会 对 
学 习 过 程 产生 任何 负面 影响 这 样 的 结论 。 为 了 准确 衡量 变 分 近似 带 来 的 人 危害， 我们 
需要 知道 0* = maxo logp(v;0)。L(v,0,9) = logp(v; 0) fll logp(v; 0) < log p(v; 0*) 
同时 成 立 是 有 可 能 的 。 如 果 存 在 max, £(v,0*,q) < logp(v;0*), Blk 0* 点 处 后 验 
分 布 太 过 复杂 使 得 q 分布 族 无 法 准确 描述 ， 那 么 学 习 过 程 永远 无 法 到 达 0*。 这 样 的 
一 类 问题 是 很 难 发 现 的 ， 因 为 只 有 在 我 们 有 一 个 能 够 找到 0* 的 超级 学 习 算 法 时 ， 才 
能 确定 地 进行 上 述 的 比较 。 














19.5 ”学 成 近似 推断 


我 们 已 经 看 到 了 推断 可 以 被 视 作 一 个 增加 也 数 C 值 的 优化 过 程 。 显 式 地 通 
过 和 迭代 方法 〈 比 如 不 动 点 方程 或 者 基于 梯度 的 优化 算法 ) 来 进行 优化 的 过 程 通常 
是 代价 很 高 且 耗 时 巨大 的 。 通 过 学 习 一 个 近似 推断 ， 许 多 推断 算法 避免 了 这 种 
代价 。 具体 地 说 ， 我 们 可 以 将 优化 过 程 视 作 将 一 个 输入 v 投影 到 一 个 近似 分 布 
q* = argmax, L(v, q) 的 一 个 函数 fo 一 旦 我 们 将 多 步 的 迭代 优化 过 程 看 作 是 一 个 函 
数 ， 我 们 可 以 用 一 个 近似 函数 为 f(v 0) 的 神经 网 络 来 近似 它 。 
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19.5.1 ” 醒 眠 算法 


训练 一 个 可 以 用 v 来 推断 h 的 模型 的 一 个 主要 难点 在 于 我 们 没有 一 个 监督 训 
练 集 来 训练 模型 。 给 定 一 个 v， 我 们 无 法 获知 一 个 合适 的 ho A v 到 h 的 映射 依赖 
于 模型 族 的 选择 ， 并 且 在 学 习 过 程 中 随 着 0 的 改变 而 变化 。 醒 眠 (wake sleep) 算 
法 (Hinton et al., 1995b; Frey et al., 1996) 通过 从 模型 分 布 中 抽取 v 和 h 的 样本 来 
解决 这 个 问题 。 例 如 ， 在 有 向 模型 中 ， 这 可 以 通过 执行 从 h 开始 并 在 v 结束 的 原始 
采样 来 高 效 地 完成 。 然 后 这 个 推断 网 络 可 以 被 训练 来 执行 反 回 的 映射 : 预测 哪 一 个 
h 产生 了 当前 的 vo 这 种 方法 的 主要 缺点 是 我 们 将 只 能 在 那些 在 当前 模型 上 有 较 高 概 
率 的 v 值 上 训练 推断 网 络 。 在 学 习 早 期 ， 模型 分 布 与 数据 分 布 偏差 较 大 ， 因 此 推断 
网 络 将 不 具有 在 类 似 数 据 的 样本 上 学 习 的 机 会 。 

在 第 18.2 节 中 ， 我 们 看 到 睡眠 做 梦 在 人 类 和 动物 中 作用 的 一 个 可 能 解释 是 ， 做 
梦 可 以 提供 壹 特 卡 罗 训 练 算法 用 于 近似 无 向 模型 中 对 数 配 分 函数 钠 梯 度 的 负 相 样本 。 
生物 做 梦 的 另 一 个 可 能 解释 是 它 提供 来 自 p(h, v) 的 样本 ,这 可 以 用 于 训练 推断 网 络 
在 给 定 v 的 情况 下 预测 h。 在 某 些 意义 上 ， 这 种 解释 比 配 分 函数 的 解释 更 令 人 满意 。 
如 果 和 蒙特 卡 罗 算 法 仅 使 用 梯度 的 正 相 运行 几 个 步 又， 然后 仅 对 梯度 的 负 相 运 行 几 个 
步骤 ， 那 么 结果 通常 不 会 很 好 。 人 类 和 动物 通常 连续 清醒 几 个 小 时 ， 然 后 连续 睡 着 
几 个 小 时 。 这 个 时 间 表 如 何 文 持 无 向 模型 的 蒙特 卡 罗 训 练 尚 不 清楚 。 然 而 ， 基 于 最 
大 化 L 的 学 习 算 法 可 以 通过 长 时 间 调 整改 进 g 和 长 期 调整 9 来 实现 。 如 果 生 物 做 梦 
的 作用 是 训练 网 络 来 预测 g， 那 么 这 解释 了 动物 如 何 能 够 保持 清醒 几 个 小 时 (它们 
清醒 的 时 间 越 长 ，L 和 logp(v) 之 间 的 差距 越 大 ,但 是 C 仍然 是 下 限 ) 并 且 睡 眠 几 
个 小 时 〈 生 成 模型 本 身 在 睡眠 期 间 不 被 修改 )， 而 不 损害 它们 的 内 部 模型 。 当 然 ， 这 
些 想法 纯粹 是 猜测 性 的 ， 没 有 任何 确定 的 证 据 表 明 做 梦 实 现 了 这 些 目标 之 一 。 做 梦 
也 可 以 通过 从 动物 的 过 渡 模 型 ( 用 来 训练 动物 策略 ) 采样 合成 经 验 来 服务 于 强化 学 
习 而 不 是 概率 建 模 。 也 许 睡 眠 可 以 服务 于 一 些 机 带 学 习 社区 尚未 发 现 的 其 他 目的 。 
































19.5.2 ”学 成 推断 的 其 他 形式 


这 种 学 成 近似 推断 策略 已 经 被 应 用 到 了 其 他 模型 中 。Salakhutdinov and 
Larochelle (2010) 证 明了 在 学 成 推断 网 络 中 的 单 遍 传 递 相 比 于 在 深度 玻 尔 兹 曼 机 中 
的 和 欠 代 均值 场 不 动 点 方程 能 够 得 到 更 快 的 推断 。 其 训练 过 程 基于 运行 推断 网 络 ， 然 
后 运行 一 步 均 值 场 来 改进 其 估计 ， 并 训练 推断 网 络 来 输出 这 个 更 精细 的 估计 以 代替 
其 原始 估计 。 
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我 们 已 经 在 第 14.8 节 中 看 到 ， 预 测 性 的 稀 玻 分 解 模型 训练 一 个 浅 层 编码 器 网 络 ， 
从 而 预测 输入 的 稀 玻 编码 。 这 可 以 被 看 作 是 自 编码 器 和 稀 玻 编码 之 间 的 混合 。 为 模型 
设计 概率 语义 是 可 能 的 ,其 中 编码 器 可 以 被 视 为 执行 学 成 近似 MAP 推 新 。 由 于 其 浅 
层 的 编码 锅 ，PSD 不 能 实现 我 们 在 均值 场 推断 中 看 到 的 单元 之 间 的 那 种 竞争 。 然 而 ， 
该 问题 可 以 通过 训练 深度 编码 器 实 现 学 成 近似 推断 来 补救 ， 如 ISTA 技术 (Gregor 
and LeCun, 2010b)。 

近来 学 成 近似 推断 已 经 成 为 了 变 分 自 编码 器 形式 的 生成 模型 中 的 主要 方法 之 一 
(Kingma and Welling, 2014a; Rezende et al., 2014)。 在 这 种 优美 的 方法 中 ， 不 需要 
为 推断 网 络 构造 显 式 的 目标 。 反 之 ， 推 断 网 络 仅仅 被 用 来 定义 £L， 然 后 调整 推断 网 
络 的 参数 来 增 大 C。 我 们 将 在 第 20.10.3 节 中 详细 介绍 这 种 模型 。 

我 们 可 以 使 用 近似 推断 来 训练 和 使 用 很 多 不 同 的 模型 。 其 中 许多 模型 将 在 下 一 
章 中 描述 。 
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在 本 章 中 ， 我 们 介绍 几 种 具体 的 生成 模型 ， 这 些 模型 可 以 使 用 第 十 六 章 至 第 十 
九 章 中 出 现 的 技术 构建 和 训练 。 所 有 这 些 模 型 在 某 种 程度 上 都 代表 了 多 个 变量 的 概 
率 分 布 。 有 些 模型 允许 显 式 地 计算 概率 分 布 函 数 。 其 他 模型 则 不 允许 直接 评估 概率 
分 布 函数 ， 但 支持 隐 式 获取 分 布 知识 的 操作 ， 如 从 分 布 中 采样 。 这 些 模 型 中 的 一 部 
分 使 用 第 十 六 章 中 的 图 模型 语言 ， 从 图 和 因子 的 角度 描述 为 结构 化 概率 模型 。 其 他 
的 不 能 简单 地 从 因子 角度 描述 ， 但 仍然 代表 概率 分 布 。 








20.1 TREE 


玻 尔 效 曼 机 最 初 作为 一 种 广义 的 “联结 主义 ” 引入 ， 用 来 学 习 二 值 回 量 上 的 任意 
概率 分 布 (Fahlman et al., 1983; Ackley et al., 1985; Hinton et al., 1984b; Hinton and 
Sejnowski, 1986)。 玻 尔 效 受 机 的 变 体 (包含 其 他 类 型 的 变量 ) 早已 超过 了 原始 玻 尔 
效 曼 机 的 流行 程度 。 在 本 节 中 ,我 们 简要 介绍 二 值 玻 尔 效 曼 机 并 讨论 训练 模型 和 进 
行 推 断 时 出 现 的 问题 。 

我 们 在 d 维 二 值 随机 向 量 ze (0,1)7 上 定义 玻 尔 兹 曼 机 。 玻 尔 兹 曼 机 是 一 种 基 
于 能 量 的 模型 (第 16.2.4 节 ), 意味 着 我 们 可 以 使 用 能 量 函 数 定义 联合 概率 分 布 : 











P(z) = p (20.1) 
其 中 E(x) 是 能 量 函 数 ，2 是 确保 I, P(a) = 1 WC ER. BERK SALA AE ER 
E(x) = —a' Uz — b! a, (20.2) 


其 中 OU ERR) AE HEE, b 是 偏 置 向 量 。 
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在 一 般 设 定 下 ， 给 定 一 组 训练 样本 ， 每 个 样本 都 是 n). X (20.1) 描述 了 观 
察 到 的 变量 的 联合 概率 分 布 。 虽 然 这 种 情况 显然 可 行 ， 但 它 限 制 了 观察 到 的 变量 和 
权重 和 矩阵 描述 的 变量 之 间 相 互 作用 的 类 型 。 具 体 来 说 ， 这 意味 着 一 个 单元 的 概率 由 
其 他 单元 值 的 线性 模型 ( 逻辑 回归 ) 给 出 。 

当 不 是 所 有 变量 都 能 被 观察 到 时 , 玻 尔 兹 曼 机 变 得 更 强大 。 在 这 种 情况 下 ,， TERRE 
量 类 似 于 多 层 感 知 机 中 的 隐藏 单元 ， 并 模拟 可 见 单 元 之 间 的 高 阶 交 互 。 正 如 添加 隐 
藏 单元 将 逻辑 回归 转换 为 MLP， 导 臻 MLP 成 为 函数 的 万 能 近似 器 ， 具 有 隐藏 单 
元 的 玻 尔 效 曼 机 不 再 局 限于 建 模 变量 之 间 的 线性 关系 。 相 反 ， 玻 尔 效 曼 机 变 成 了 离 
散 变 量 上 概率 质量 函数 的 万 能 近似 器 (Le Roux and Bengio, 2008). 

正式 地 ， 我 们 将 单元 z 分 解 为 两 个 子 集 : 可 见 单元 v 和 潜在 (或 隐藏 ) 单元 ho 
能 量 函 数 变 为 





























E(v, h) = —v' Re — v! Wh — h' Sh b v— c'h. (20.3) 





玻 尔 兹 曼 机 的 学 习 ” 玻 尔 效 曼 机 的 学 习 算 法 通常 基于 最 大 似 然 。 所 有 玻 尔 效 曼 机 都 
具有 难以 处 理 的 配 分 函数 ， 因 此 最 大 似 然 梯度 必须 使 用 第 十 八 章 中 的 技术 来 近似 。 

玻 尔 效 曼 机 有 一 个 有 趣 的 性 质 , 当 基于 最 大 似 然 的 学 习 规 则 训练 时 , 连接 两 个 单 
元 的 特定 权重 的 更 新 仅 取决 于 这 两 个 单元 在 不 同 分 布下 收集 的 统计 信息 : Paoaa(v) 
和 Pass (v) Pacaa(h | v)。 网 络 的 其 余部 分 参与 塑造 这 些 统计 信息 ,但 权重 可 以 在 完 
全 不 知道 网 络 其 余部 分 或 这 些 统计 信息 如 何 产生 的 情况 下 更 新 。 这 意味 着 学 习 规则 
是 “局 部 ” 的， 这 使 得 玻 尔 兹 曼 机 的 学 习 似 乎 在 某 种 程度 上 是 生物 学 合理 的 。 我 们 
可 以 设想 每 个 神经 元 都 是 玻 尔 兹 曼 机 中 随机 变量 的 情况 ， 那 么 连接 两 个 随机 变量 的 
轴 突 和 树 突 只 能 通过 观察 与 它们 物理 上 实际 接触 细胞 的 激发 模式 来 学 习 。 特 别 地 ， 
正 相 期 间 ， 经 常 同时 激活 的 两 个 单元 之 间 的 连接 会 被 加 强 。 这 是 Hebbian 学 习 规 则 
(Hebb, 1949) 的 一 个 例子 , 经 常 总 结 为 好 记 的 短语 一 一 “fire together, wire together"; 
Hebbian 学 习 规 则 是 生物 系统 学 习 中 最 古老 的 假设 性 解释 之 一 ， 直 至 今天 仍然 有 重 
大 意义 (Giudice et al., 2009). 

不 仅仅 使 用 局 部 统计 信息 的 其 他 学 习 算 法 似乎 需要 假设 更 多 的 学 习 机 制 。 例 如 ， 
对 于 大 脑 在 多 层 感知 机 中 实现 的 反 向 传播 ， 似 乎 需要 维持 一 个 辅助 通信 的 网 络 ， 并 
借 此 向 后 传输 梯度 信息 。 已 经 有 学 者 (Hinton, 2007a; Bengio, 2015) 提出 生物 学 上 可 
fr (和 近似 ) 的 反 向 传播 实现 方案 ,但 仍然 有 待 验 证 ，Bengio (2015) 还 将 梯度 的 反 
向 传播 关联 到 类 似 于 玻 尔 兹 曼 机 (但 具有 连续 潜 变 量 ) 的 能 量 模型 中 的 推断 。 
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从 生物 学 的 角度 看 , 玻 尔 效 曼 机 学 习 中 的 负 相 阶段 有 点 难以 解释 。 正 如 第 18.2 35 
所 主张 的 ， 人 类 在 睡眠 时 做 梦 可 能 是 一 种 形式 的 负 相 采样 。 尽 管 这 个 想法 更 多 的 只 


是 猜测 。 


20.2 SERBS 


A BR AR ZA SALE, BRE (harmonium ) 之 名 (Smolensky, 1986) 面世 之 后 , 成 
为 了 深度 概率 模型 中 最 常见 的 组 件 之 一 。 我 们 之 前 在 第 16.7.1 节 简要 介绍 了 RBM. 
在 这 里 我 们 回顾 以 前 的 内 容 并 探讨 更 多 的 细节 。RBM 是 包含 一 层 可 观察 变量 和 单 
层 潜 变量 的 无 向 概率 图 模型 。RBM BILAYER 〈 一 个 在 另 一 个 的 顶部 ) 形成 更 深 
的 模型 。 图 20.1 展示 了 一 些 例子 。 特 别 地 , 图 20.1a 显示 RBM 本 身 的 图 结构 。 它 是 
一 个 二 分 图 ， 观 察 层 或 潜 层 中 的 任何 单元 之 间 不 允许 存在 连接 。 

我 们 从 二 值 版 本 的 受 限 玻 尔 兹 曼 机 开始 ， 但 如 我 们 之 后 所 见 ， 这 还 可 以 扩展 为 
其 他 类 型 的 可 见 和 隐藏 单元 。 

更 正式 地 说 ， 令 观察 层 由 一 组 n, 个 二 值 随机 变量 组 成 ， 我 们 统称 为 向 量 v. R 
们 将 na 个 二 值 随机 变量 的 潜在 或 隐藏 层 记 为 h。 

就 像 普通 的 玻 尔 效 曼 机 ， 受 限 玻 尔 效 曼 机 也 是 基于 能 量 的 模型 ， 其 联合 概率 分 
布 由 能 量 函 数 指定 : 














Pv = v,h = h) = z, exp(- E(w, h)). (20.4) 
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E(v, h) = —b' v—c'h—v' Wh, (20.5) 





其 中 2 是 被 称 为 配 分 函数 的 归 一 化 常数 : 
Z — >》 exp{-E(v, h)} (20.6) 

v h 
从 配 分 函数 Z 的 定义 显而易见 , 计算 Z 的 朴素 方法 (对 所 有 状态 进行 穷 举 求 和 ) 计 
算 上 可 能 是 难以 处 理 的 ， 除 非 有 巧妙 设计 的 算法 可 以 利用 概率 分 布 中 的 规则 来 更 快 


地 计算 Zo 在 受 限 玻 尔 兹 曼 机 的 情况 下 ，Long and Servedio (2010) IESQuEHA Ada} PR 
BZ 是 难 解 的 。 难 解 的 配 分 函数 2 意味 着 归 一 化 联合 概率 分 布 P(v) 也 难以 评估 。 
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图 20.1: 可 以 用 受 限 玻 尔 效 曼 机 构建 的 模型 示例 。(a) 受 限 玻 尔 效 曼 机 本 身 是 基于 二 分 网 的 无 向 图 
模型 ， 在 图 的 一 部 分 具有 可 见 单元 ,， 另 一 部 分 具有 隐藏 单元 。 可 见 单元 之 间 没 有 连接 ， 隐 藏 单元 之 
间 也 没有 任何 连接 。 通 常 每 个 可 见 单元 连接 到 每 个 隐藏 单元 ， 但 也 可 以 构造 稀 玻 连接 的 RBM， 如 
卷 积 RBM。(b) 深 度 信 念 网 络 是 涉及 有 向 和 无 向 连接 的 混合 图 模型 。 与 RBM 一 样 , 它 也 没有 层 内 
连接 。 然 而 ，DBN 具有 多 个 隐藏 展 ， 因 此 隐藏 单元 之 间 的 连接 在 分 开 的 层 中 。 深 度 信念 网 络 所 需 
的 所 有 局 部 条 件 概率 分 布 都 直接 复制 RBM 的 局 部 条 件 概 率 分 布 。 或 者 ， 我 们 也 可 以 用 完全 无 向 
图 表示 深度 信念 网 络 ， 但 是 它 需 要 层 内 连接 来 捕获 父 节 点 间 的 依赖 关系 。(c) 深 度 玻 尔 效 曼 机 是 具 
有 几 层 潜 变 量 的 无 向 图 模型 。 与 RBM 和 DBN 一 样 ，DBM 也 缺少 层 内 连接 。DBM 5 RBM 的 
联系 不 如 DBN 紧密 。 当 从 RBM 堆栈 初始 化 DBM 时 ， 有 必要 对 RBM 的 参数 稍 作 修改 。 某 些 
种 类 的 DBM 可 以 直接 训练 ， 而 不 用 先 训练 一 组 RBM. 

























































































20.2.1 ”条件 分 布 


虽然 P(v) 难 解 ， 但 RBM 的 二 分 图 结构 具有 非常 特殊 的 性 质 ， 其 条 件 分 布 





P(h | v) 和 P(v | hb) 是 因子 的 ， 并且 计算 和 采样 是 相对 简单 的 。 
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从 联合 分 布 中 导出 条 件 分 布 是 直观 的 : 





P(h,v 
P(h| v) = a (20.7) 
1 1 T JT T 
= POZ b h h 20. 
a PIE Ce re we, (20.8) 
= z, exb (e ho v Wh} (20.9) 
-ep {> h; 530 W.;h;] (20.10) 
1 
= J [exp {ef hj +o W. ;h;}. (20:11) 
j=l 


由 于 我 们 相对 可 见 单元 v 计算 条 件 概率 ， 相 对 于 分 布 Ph | v) 我 们 可 以 将 它们 视 为 
和 常数。 条 件 分 布 P(h | v) 因子 相 乘 的 本 质 ， 我 们 可 以 将 向 量 h 上 的 联合 概率 写成 单 
独 元 素 h; 上 (未 归 一 化 ) 分 布 的 乘积 。 现 在 原 问 题 变 成 了 对 单个 二 值 h; 上 的 分 布 
进行 归 一 化 的 简单 问题 。 








P(h; =1|v) = a. à (20.12) 
: P(h; =0| v) + P(h; 21] v) l 
O exp{c; + v! W.;} 
— exp{0} +exp{c; + v! W.;} nets) 
=a(c;+v' W.,). (20.14) 
现在 我 们 可 以 将 关于 隐藏 层 的 完全 条 件 分 布 表达 为 因子 形式 : 
P(h | v) = Ile(cn- 1) 6 (e W'v)) . (20.15) 


类 似 的 推导 将 显示 我 们 感 兴趣 的 另 一 条 件 分 布 ，P(v | h) 也 是 因子 形式 的 分 布 : 


-f« ((2v — 1) © (b+ Wh)),. (20.16) 


20.2.2 ”训练 受 限 玻 尔 兹 曼 机 


因为 RBM 允许 高 效 计算 P(v) 的 估计 和 微分 ， 并 且 还 允许 高 效 地 ( 以 块 吉 布 
斯 采样 的 形式 ) 进行 MCMC 采样 ， 所 以 我 们 很 容易 使 用 第 十 八 章 中 训练 具有 难以 计 
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算 配 分 函数 的 模型 的 技术 来 训练 RBM. 这 包括 CD, SML (PCD ) 、 比 率 匹配 等 。 
与 深度 学 习 中 使 用 的 其 他 无 向 模型 相 比 ，RBM 可 以 相对 直接 地 训练 ， 因 为 我 们 可 以 
以 闭 解 形式 计算 P(h | v)。 其 他 一 些 深度 模型 ， 如 深度 玻 尔 兹 曼 机 ,同时 具备 难处 理 
的 配 分 函数 和 难以 推断 的 难题 。 


20.3 ”深度 信念 网 络 


深度 信念 网 络 (deep belief network, DBN ) 是 第 一 批 成 功 应 用 深度 架构 训练 的 
非 卷 积 模型 之 一 (Hinton et al., 2006a; Hinton, 2007b). 2006 年 深度 信念 网 络 的 引入 
开始 了 当前 深度 学 习 的 复兴 。 在 引入 深度 信念 网 络 之 前 ， 深 度 模型 被 认为 太 难 以 优 
化 。 具 有 凸 目标 函数 的 核 机 器 引领 了 研究 前 沿 。 深 度 信念 网 络 在 MNIST 数据 集 上 表 
现 超过 内 核 化 支持 向 量 机 ， 以 此 证 明 深 度 架构 是 能 够 成 功 的 (Hinton et al., 2006a)。 
尽管 现在 与 其 他 无 监督 或 生成 学 习 算法 相 比 ， 深 度 信念 网 络 大 多 已 经 失去 了 青睐 并 
很 少 使 用 ,但 它们 在 深度 学 习 历 史 中 的 重要 作用 仍 应 该 得 到 承认 。 

深度 信念 网 络 是 具有 若干 潜 变 量 层 的 生成 模型 。 潜 变量 通常 是 二 值 的 ， 而 可 见 
单元 可 以 是 二 值 或 实数 。 尽 管 构造 连接 比较 稀 蕊 的 DBN 是 可 能 的 , 但 在 一 般 的 模型 
中 ， 每 层 的 每 个 单元 连接 到 每 个 相 邻 层 中 的 每 个 单元 ( 没有 层 内 连接 )。 顶 部 两 层 之 
间 的 连接 是 无 向 的 。 而 所 有 其 他 层 之 间 的 连接 是 有 向 的 ， 箭 头 指向 最 接近 数据 的 层 。 
见 图 20.1b 的 例子 。 

具有 ! 个 隐藏 层 的 DBN 包含 ! MEE: WO,..., 了。 同时 也 包含 1+1 
个 偏 置 向 量 : b... BO, erp p? 是 可 见 层 的 偏 置 。DBN 表示 的 概率 分 布 由 下 式 
给 出 : 


















































P(A, RO“) oc exp (50 RO 十 BC-D7PRC-D 十 Pr-D7 WOR), (20.17) 
PU = 1| ROY) = a(b + WEY AY) Vi Yk €1,...,1—2, (20.18) 
P(o; = LRO) = c(t + wO A) vi. (20.19) 





在 实 值 可 见 单元 的 情况 下 ， 替 换 
v A (v; b? + WO hO, 6-7) (20.20) 


为 便于 处 理 ，B 为 对 角形 式 。 至 少 在 理论 上 ， 推 广 到 其 他 指数 族 的 可 见 单元 是 直观 
的 。 只 有 一 个 隐藏 层 的 DBN 只 是 一 个 RBM。 
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为 了 从 DBN 中 生成 样本 ， 我 们 先 在 顶部 的 两 个 隐藏 层 上 运行 几 个 Gibbs 采 
样 步骤。 这 个 阶段 主要 从 RBM (由 顶部 两 个 隐藏 层 定义 ) 中 采 一 个 样本 。 然 后 ， 我 
们 可 以 对 模型 的 其 余部 分 使 用 单 次 原始 采样 ， 以 从 可 见 单元 绘制 样本 。 

深度 信念 网 络 引 发 许多 与 有 向 模型 和 无 向 模型 同时 相关 的 问题 。 

由 于 每 个 有 向 层 内 的 相 消解 释 效 应 ， 并 且 由 于 无 向 连接 的 两 个 隐藏 层 之 间 的 相 
互 作用 , 深度 信念 网 络 中 的 推断 是 难 解 的 。 评估 或 最 大 化 对 数 似 然 的 标准 证 据 下 界 也 
是 难以 处 理 的 ， 因 为 证 据 下 界 基于 大 小 等 于 网 络 宽度 的 团 的 期 望 。 

评估 或 最 大 化 对 数 似 然 , 不 仅 需 要 面 对 边缘 化 潜 变 量 时 难以 处 理 的 推断 问题 ,而 
日 还 需要 处 理 顶 部 两 层 无 问 模 型 内 难处 理 的 配 分 函数 问题 。 

为 训练 深度 信念 网 络 ， 我 们 可 以 先 使 用 对 比 散 度 或 随机 最 大 似 然 方法 训 
练 RBM 以 最 大 化 E,yj,,, logp(v)。RBM 的 参数 定义 了 DBN 第 一 层 的 参数 。 
然后 ， 第 二 个 RBM 训练 为 近似 最 大 化 
































By paac Eh CO np (hd |v) log p? (h®), (20.21) 


其 中 pO 是 第 一 个 RBM RREKIN, pO 是 第 二 个 RBM 表示 的 概率 分 布 。 
换 句 话说 ， 第 二 个 RBM 被 训练 为 模拟 由 第 一 个 RBM 的 隐藏 单元 采样 定义 的 分 布 ， 
而 第 一 个 RBM 由 数据 驱动 。 这 个 过 程 能 无 限 重 复 ， 从 而 向 DBN 添加 任意 多 层 ， 其 
中 每 个 新 的 RBM 对 前 一 个 RBM 的 样本 建 模 。 每 个 RBM 定义 DBN 的 另 一 层 。 这 
个 过 程 可 以 被 视 为 提高 数据 在 DBN 下 似 然 概 率 的 变 分 下 界 (Hinton et al., 2006a)。 

在 大 多 数 应 用 中 , 对 DBN 进行 贪心 逐 层 训练 后 ， 不 需要 再 花 功夫 对 其 进行 联合 
训练 。 然 而 ， 使 用 醒 眠 算法 对 其 进行 生成 精 调 是 可 能 的 。 

训练 好 的 DBN 可 以 直接 用 作 生 成 模型 , 但 是 DBN 的 大 多 数 兴 趣 来 自 于 它们 改 
进 分 类 模型 的 能 力 。 我 们 可 以 从 DBN 获取 权重 ， 并 使 用 它们 定义 MLP: 














AY = o (XO +o" W), (20.22) 
h® = o (MD 二 MD We) vL e 2,... m. (20.23) 
利用 DBN 的 生成 训练 后 获得 的 权重 和 侦 置 初始 化 该 MLP 之 后 ， 我 们 可 以 训练 
该 MLP 来 执行 分 类 任务 。 这 种 MLP 的 额外 训练 是 判别 性 精 调 的 示例 。 
与 第 十 九 章 中 从 基本 原理 导出 的 许多 推断 方程 相 比 ， 这 种 特定 选择 的 MLP 有 
些 随意 。 这 个 MLP 是 一 个 启发 式 选择 ,似乎 在 实践 中 效果 不 错 ， 并 在 文献 中 一 贯 
用 。 许 多 近似 推断 技术 是 由 它们 在 一 些 约束 下 ， 并 在 对 数 似 然 上 找到 最 大 紧 变 分 下 
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界 的 能 力 所 驱 动 的 。 我 们 可 以 使 用 DBN 中 MLP 定义 的 隐藏 单元 的 期 望 ， 构 造 对 数 
似 然 的 变 分 下 界 ， 但 这 对 于 隐藏 单元 上 的 任何 概率 分 布 都 是 如 此 ， 并 没有 理由 相信 
该 MLP 提供 了 一 个 特别 的 紧 界 。 特 别 地 ，MLP 忽略 了 DBN 图 模型 中 许多 重要 的 
相互 作用 。MLP 将 信息 从 可 见 单元 向 上 传播 到 最 次 的 隐藏 单元 ， 但 不 向 下 或 侧 向 传 
播 任何 信息 。DBN 图 模型 解释 了 同一 层 内 所 有 隐藏 单元 之 间 的 相互 作用 以 及 层 之 间 
的 自 项 向 下 的 相互 作用 。 

虽然 DBN 的 对 数 似 然 是 难处 理 的 , 但 它 可 以 使 用 AIS 近似 (Salakhutdinov and 
Murray, 2008)。 通 过 近似 ， 可 以 评估 其 作为 生成 模型 的 质量 。 

术语 “深度 信念 网 络 ” 通常 不 正确 地 用 于 指 代 任 意 种 类 的 深度 神经 网 络 ， 其 至 没 
有 潜 变 量 意义 的 网 络 。 这 个 术语 应 特 指 最 深层 中 具有 无 向 连接 ， 而 在 所 有 其 他 连续 
层 之 间 存 在 向 下 有 向 连接 的 模型 。 

这 个 术语 也 可 能 导致 一 些 混乱 ， 因 为 术语 “信念 网 络 ” 有 时 指 纯粹 的 有 向 模 
型 ， 而 深度 信念 网 络 包含 一 个 无 向 层 。 深 度 信 和 念 网 络 也 与 动态 贝 叶 斯 网 络 (dynamic 
Bayesian networks) (Dean and Kanazawa, 1989) 共享 首 字母 缩写 DBN， 动 态 贝 叶 
斯 网 络 表 示 马 尔 可 夫 链 的 贝 叶 斯 网 络 。 


20.4 深度 玻 尔 效 曼 机 


深度 玻 尔 效 曼 机 (Deep Boltzmann Machine, DBM ) (Salakhutdinov and Hin- 
ton, 2009a) 是 男 一 种 深度 生成 模型 。 与 深度 信念 网 络 (DBN ) 不 同 的 是 ， 它 是 一 
个 完全 无 向 的 模型 。 与 RBM 不 同 的 是 ，DBM AULA (RBM 只 有 一 层 )。 
但 是 像 RBM 一 样 ， 每 一 层 内 的 每 个 变量 是 相互 独立 的 ， 并 条 件 于 相 邻 层 中 的 变 
量 。 见 图 20.2 中 的 图 结构 。 深 度 玻 尔 兹 曼 机 已 经 被 应 用 于 各 种 任务 ， 包 括 文档 建 模 
(Srivastava et al., 2013)。 

与 RBM 和 DBN 一 样 ，DBM 通常 仅 包含 二 值 单元 ( 正如 我 们 为 简化 模型 的 演 
示 而 假设 的 )， 但 很 容易 就 能 扩展 到 实 值 可 见 单元 。 

DBM 是 基于 能 量 的 模型 ， 这 意味 着 模型 变量 的 联合 概率 分 布 由 能 量 函 数 E 参 
数 化 。 在 一 个 深度 玻 尔 效 曼 机 包含 一 个 可 见 层 v 和 三 个 隐藏 层 nO, nO qm n9? 的 情 
况 下 ， 联 合 概率 由 下 式 给 出 : 











1 
P(v, AY, hP, A) = zig? ( — Elv, hh, 9; )). (20.24) 
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图 20.2: 具有 一 个 可 见 层 ( 底部 ) 和 两 个 隐藏 层 的 深度 玻 尔 兹 曼 机 的 图 模型 。 仅 在 相 邻 层 的 单元 之 
间 存 在 连接 。 没 有 层 内 连接 。 

















为 简化 表示 ， 下 式 省 略 了 偏 置 参数 。DBM 能 量 函 数 定 义 如 下 : 


E(v, h®, hP, h®; 0) = —v WORD — AO! WORO -hO WHA. (20.25) 











与 RBM 的 能 量 函数 ( 式 (20.5) ) FUEL, DBM 能 量 函 数 以 权重 矩阵 C WO 和 
WO ) 的 形式 表示 隐藏 单元 ( 潜 变 量 ) 之 间 的 连接 。 正 如 我 们 将 看 到 的 ， 这 些 连接 
对 模型 行为 以 及 我 们 如 何在 模型 中 进行 推断 都 有 重要 的 影响 。 








图 20.3: 深度 玻 尔 效 曼 机 ， 重 新 排列 后 显示 为 二 分 图 结构 。 














与 全 连接 的 玻 尔 兹 曼 机 ( 每 个 单元 连接 到 其 他 每 个 单元 ) 相 比 ，DBM 提供 了 类 
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似 于 RBM 的 一 些 优点 。 


具体 来 说 ， 如 图 20.3 所 示 ，DBM 的 层 可 以 组 织 成 一 个 二 分 图 ， 其 中 奇数 层 在 一 
侧 ， 偶 数 层 在 另 一 侧 。 容 易 发 现 ， 当 我 们 条 件 于 偶数 层 中 的 变量 时 ， 奇 数 层 中 的 变 
量变 得 条 件 独立 。 当 然 ， 当 我 们 条 件 于 奇数 层 中 的 变量 时 ， 偶 数 层 中 的 变量 也 会 变 
得 条 件 独立 。 

DBM 的 二 分 图 结构 意味 着 我 们 可 以 应 用 之 前 用 于 RBM 条 件 分 布 的 相同 式 子 
来 确定 DBM 中 的 条 件 分 布 。 在 给 定 相 邻 层 值 的 情况 下 ， 层 内 的 单元 彼此 条 件 独立 ， 
因此 二 值 变量 的 分 布 可 以 由 Bernoulli 参数 ( 描述 每 个 单元 的 激活 概率 ) 完全 描述 。 
在 具有 两 个 隐藏 层 的 示例 中 ， 激 活 概率 由 下 式 给 出 : 


P(v, 2 1| AP) = o( WPA), (20.26) 
P(A? 21| v,h®) = o(v* WO) + WR), (20.27) 

和 
PAY? = 1 AT we). (20.28) 


二 分 图 结构 使 Gibbs 采样 能 在 深度 玻 尔 兹 曼 机 中 高 效 采样 。Gibbs 采样 的 方法 
是 一 次 只 更 新 一 个 变量 。RBM 人 允许 所 有 可 见 单元 以 一 个 块 的 方式 更 新 ， 而 所 有 隐藏 
单元 在 另 一 个 块 上 更 新 。 我 们 可 以 简单 地 假设 具有 ! 层 的 DBM 需要 1 十 1 次 更 新 ， 
每 次 迭代 更 新 由 某 层 单元 组 成 的 块 。 然 而 ,我 们 可 以 仅 在 两 次 迭代 中 更 新 所 有 单元 。 
Gibbs 采样 可 以 将 更 新 分 成 两 个 块 ， 一 块 包括 所 有 偶数 层 (包括 可 见 层 )， 另 一 个 
包括 所 有 奇数 层 。 由 于 DBM 二 分 连接 模式 ， 给 定 偶数 层 ， 关 于 奇数 层 的 分 布 是 因 
子 的 ， 因 此 可 以 作为 块 同 时 上 且 独立 地 采样 。 类 似 地 ， 给 定 奇数 层 ， 可 以 同时 且 独 立 
地 将 偶数 层 作 为 块 进行 采样 。 高 效 采样 对 使 用 随机 最 大 似 然 算法 的 训练 尤其 重要 。 




















20.4.1 有趣 的 性 质 


深度 玻 尔 兹 曼 机 具有 许多 有 趣 的 性 质 。 


DBM 在 DBN 之 后 开发 。 与 DBN 相 比 ，DBM 的 后 验 分 布 P(h | v) 更 简单 。 
有 点 违反 直觉 的 是 ， 这 种 后 验 分 布 的 简单 性 允许 更 加 丰富 的 后 验 近似 。 在 DBN 的 
情况 下 ， 我 们 使 用 启发 式 的 近似 推断 过 程 进行 分 类 ， 其 中 我 们 可 以 通过 MLP (使 
用 sigmoid 激活 函数 并 且 权 重 与 原始 DBN 相同 ) 中 的 向 上 传播 猜测 隐藏 单元 合理 
的 均匀 场 期 望 值 。 任 何 分 布 Q(h) 可 用 于 获得 对 数 似 然 的 变 分 下 界 。 因 此 这 种 启发 
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式 的 过 程 让 我 们 能 够 获得 这 样 的 下 界 。 但 是 ， 该 界 没有 以 任何 方式 显 式 优化 ， 所 以 
该 界 可 能 是 远 远 不 紧 的 。 特 别 地 ，Q 的 启发 式 估计 忽略 了 相同 层 内 隐藏 单元 之 间 的 
相互 作用 以 及 更 深层 中 隐藏 单元 对 更 接近 输入 的 隐藏 单元 自 顶 向 下 的 反馈 影响 。 
为 DBN 中 基于 启发 式 MLP 的 推断 过 程 不 能 考虑 这 些 相互 作用 ， 所 以 得 到 的 Q 想 
必 远 不 是 最 优 的 。DBM 中 ,在 给 定 其 他 层 的 情况 下 ， 层 内 的 所 有 隐藏 单元 都 是 条 件 
独立 的 。 这 种 层 内 相互 作用 的 缺失 使 得 通过 不 动 点 方程 优化 变 分 下 界 并 找到 真正 最 
佳 的 均匀 场 期 望 ( 在 一 些 数值 容 差 内 ) 变 得 可 能 的 。 

使 用 适当 的 均匀 场 多 许 DBM 的 近似 推断 过 程 捕 获 自 项 向 下 反馈 相互 作用 的 影 
响 。 这 从 神经 科学 的 角度 来 看 是 有 趣 的 ， 因 为 根据 已 知 ， 人 脑 使 用 许多 自 上 而 下 的 反 
馈 连 接 。 由 于 这 个 性 质 ，DBM 已 被 用 作 真实 神经 科学 现象 的 计算 模型 (Series et al., 
2010; Reichert et al., 2011)。 

DBM 一 个 不 理想 的 特性 是 从 中 采样 是 相对 困难 的 。DBN 只 需要 在 其 顶部 的 一 
对 层 中 使 用 MCMC 采样 。 其 他 层 仅 在 采样 过 程 末尾 涉及 ,并且 只 需 在 一 个 高 效 的 原 
台 采 样 过 程 。 要 从 DBM 生成 样本 ,必须 在 所 有 层 中 使 用 MCMC， 并 且 模 型 的 每 一 
层 都 参与 每 个 马尔 可 夫 链 转移 。 








20.4. ” DBM 均匀 场 推断 


给 定 相 邻 层 , 一 个 DBM 层 上 的 条 件 分 布 是 因子 的 。 在 有 两 个 隐藏 层 的 DBM 的 
示例 中 ， 这 些 分 布 是 P(v| AY), P(h® | v, nO) 和 P(A? | hh)。 因 为 层 之 间 的 相 
互 作用 ， 所 有 隐藏 层 上 的 分 布 通常 不 是 因子 的 。 在 有 两 个 隐藏 层 的 示例 中 , 由 于 RO 
和 nO 之 间 的 交互 权重 WO 使 得 这 些 变 量 相互 依赖 ，P(h | v, n?) 不 是 因子 的 。 

与 DBN 的 情况 一 样 ， 我 们 还 是 要 找 出 近似 DBM 后 验 分 布 的 方法 。 然 而 ， 
与 DBN 不 同 ，DBM 在 其 隐藏 单元 上 的 后 验 分 布 (复杂 的 ) 很 容易 用 变 分 近似 来 近 
似 (如 第 19.4 节 所 讨论 )， 具体 是 一 个 均匀 场 近似 。 均 匀 场 近似 是 变 分 推断 的 简单 形 
式 ， 其 中 我 们 将 近似 分 布 限制 为 完全 因子 的 分 布 。 在 DBM 的 情况 下 ， 均 匀 场 方程 
捕获 层 之 间 的 双向 相互 作用 。 在 本 节 中 ， 我 们 推导 出 由 Salakhutdinov and Hinton 
(2009a) 最 初 引入 的 迭代 近似 推断 过 程 。 

在 推断 的 变 分 近似 中 ， 我 们 通过 一 些 相当 简单 的 分 布 族 近 似 特定 目标 分 布 一 一 
在 这 里 指 给 定 可 见 单元 时 隐藏 单元 的 后 验 分 布 。 在 均匀 场 近似 的 情况 下 , 近似 族 是 隐 
藏 单元 条 件 独立 的 分 布 集合 。 
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我 们 现在 为 具有 两 个 隐藏 层 的 示例 推导 均匀 场 方法 。 令 hP, hO | v) 为 
P(AY, A | v) 的 近似 。 均 匀 场 假设 意味 着 


QA AO |) =J [RAP | 9 TT Gs? | 9. (20.29) 
j k 


$5) Gilt WA RB 438 e a SES P(A, nO | v) 的 成 员 。 重 
要 的 是 ， 每 次 我 们 使 用 v 的 新 值 时 ， 必 须 青 次 运行 推断 过 程 以 找到 不 同 的 分 布 Q。 

我 们 可 以 设想 很 多 方法 来 衡量 Q(h | v) 与 P(h | v) 的 拟 合 程度 。 均 匀 场 方法 是 
最 小 化 





a) pO 
A zu (20.30) 


KUQ IP) = 37 000,49 | oios (Sy 


h 

一 般 来 说 ， 除 了 要 保证 独立 性 假设 ， 我 们 不 必 提 供 参 数 形式 的 近似 分 布 。 变 分 
近似 过 程 通常 能 够 恢复 近似 分 布 的 函数 形式 。 然 而 ， 在 二 值 隐 藏 单 元 (我们 在 这 里 
推导 的 情况 ) 的 均匀 场 假 设 的 情况 下 ， 不 会 由 于 预先 固定 模型 的 参数 而 损失 一 般 性 。 
我 们 将 Q 作为 Bernoulli 分 布 的 乘积 进行 参数 化 ， 即 我 们 将 AM 每 个 元 素 的 
概率 与 一 个 参数 相关 联 弛 具体 来 说 ， 对 于 每 个 j, AP = QAP = 1 | v), Krb 
AM € [0,1]. Ab, MET k, AP = Q(P = 1| v), HPAP € [0,1]。 因此, R 


们 有 以 下 近似 后 验 : 
Qn, n? |v) =J AP | 9 [[Q(£? | v) (20.31) 
j k 
«IIO? 90 - APO“ x TT APP a - àpye-em. 


j k 
(20.32) 


当然 ， 对 于 具有 更 多 层 的 DBM， 近 似 后 验 的 参数 化 可 以 通过 明显 的 方式 扩展 ， 即 利 
用 图 的 二 分 结构 ， 遵 循 Gibbs 采样 相同 的 调度 ， 同 时 更 新 所 有 偶数 层 ， 然 后 同时 更 
新 所 有 奇数 层 。 

现在 我 们 已 经 指定 了 近似 分 布 Q 的 函数 族 ， 但 仍然 需要 指定 用 于 选择 该 函数 族 
中 最 适合 P 的 成 员 的 过 程 。 最 直接 的 方法 是 使 用 式 (19.56) 指定 的 均匀 场 方程 。 这 些 
方程 是 通过 求解 变 分 下 界 导数 为 零 的 位 置 而 导出 。 他 们 以 抽象 的 方式 描述 如 何 优化 
任意 模型 的 变 分 下 界 ( 只 需 对 Q 求 期 望 )。 
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应 用 这 些 一 般 的 方程 ， 我 们 得 到 以 下 更 新 规则 ( 再 次 忽略 偏 置 项 ): 
nV =o( Yu Wi) + Y. WRAP), vi. (20.33) 
4 k’ 
A? =o( Y WAP) vi. (20.34) 
g” 























在 该 方程 组 的 不 动 点 处 , 我 们 具有 变 分 下 界 C(@) 的 局 部 最 大 值 。 因 此 ， 这 些 不 动 点 
更 新 方程 定义 了 和 迭代 算法 ， 其 中 我 们 交替 更 新 AC (使 用 式 (20.33) ) 和 A (使 
用 式 (20.34) )。 对 于 诸如 MNIST 的 小 问题 ， 少 至 10 次 迭代 就 足以 找到 用 于 学 习 的 
近似 正 相 梯度 ， 而 50 次 通常 足以 获得 要 用 于 高 精度 分 类 的 单个 特定 样本 的 高 质量 表 
示 。 将 近似 变 分 推断 扩展 到 更 深 的 DBM 是 直观 的 。 








20.4.5 DBM 的 参数 学 习 


DBM 中 的 学 习 必 须 面 对 难 解 配 分 函数 的 挑战 (使 用 第 十 八 章 中 的 技术 )， 以 及 
难 解 后 验 分 布 的 挑战 (使 用 第 十 九 章 中 的 技术 )。 

如 第 20.4.2 节 中 所 描述 的 ， 变 分 推断 允许 构建 近似 难处 理 的 PC | v) 的 分 布 
Q(h | v)。 然 后 通过 最 大 化 £(v, Q,90)( 难 处理 的 对 数 似 然 的 变 分 下 界 log P(v; 0) ) 
学 习 。 


对 于 具有 两 个 隐藏 层 的 深度 玻 尔 兹 曼 机 ，£L 由 下 式 给 出 


£(Q,0) 2 V M vw YS ho WO D — log2(0) + H(Q). (20.35) 
7M TA at 


j k 


a 


该 表达 式 仍然 包含 对 数 配 分 函数 log Z(6)。 由 于 深度 玻 尔 效 曼 机 包含 受 限 玻 尔 效 曼 
机 作为 组 件 ， 用 于 计算 受 限 玻 尔 效 曼 机 的 配 分 函数 和 采样 的 困难 同样 适用 于 深度 玻 
尔 兹 曼 机 。 这 意味 着 评估 玻 尔 兹 曼 机 的 概率 质量 函数 需要 近似 方法 ， 如 退火 重要 采 
样 。 同 样 ， 训 练 模型 需要 近似 对 数 配 分 函数 的 梯度 。 见 第 十 八 章 对 这 些 方法 的 一 般 
性 描述 。DBM 通常 使 用 随机 最 大 似 然 训练 。 第 十 八 章 中 描述 的 许多 其 他 技术 都 不 适 
用 。 诸 如 伪 似 然 的 技术 需要 评估 非 归 一 化 概率 的 能 力 ， 而 不 是 仅仅 获得 它们 的 变 分 
下 界 。 对 于 深度 玻 尔 兹 曼 机 ， 对 比 散 度 是 缓慢 的 ， 因 为 它们 不 能 在 给 定 可 见 单元 时 
对 隐 臣 单元 进行 高 效 采样 一 反而 ， 每 当 需 要 新 的 负 相 样本 时 ， 对 比 散 度 将 需要 府 
合 一 条 马尔 可 夫 链 。 

非 变 分 版 本 的 随机 最 大 似 然 算 法 已 经 在 第 18.2 节 讨论 过 。 算 法 20.1 给 出 了 应 用 
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F DBM 的 变 分 随机 最 大 似 然 算法 。 回想 一 下 , 我 们 描述 的 是 DBM 的 简化 变 体 〈 缺 
少 偏 置 参 数 ) ; 很 容易 推广 到 包含 偏 置 参数 的 情况 。 
































20.4.4 jKR MUNA 


不 幸 的 是 , 随机 初始 化 后 使 用 随机 最 大 似 然 训练 (如 上 所 述 ) 的 DBM 通常 导致 
失败 。 在 一 些 情况 下 ， 模 型 不 能 学 习 如 何 充分 地 表示 分 布 。 在 其 他 情况 下 ，DBM 可 
以 很 好 地 表示 分 布 ， 但 是 没有 比 仅 使 用 RBM 获得 更 高 的 似 然 。 除 第 一 层 之 外 ， 所 
有 层 都 具有 非常 小 权重 的 DBM 5 RBM 表示 大 致 相同 的 分 布 。 

如 第 20.4.5 节 所 述 ， 目 前 已 经 开发 了 人 允许 联合 训练 的 各 种 技术 。 然 而 ， 克 
fk DBM 的 联合 训练 问题 最 初 和 最 流行 的 方法 是 贪心 逐 层 预 训 练 。 在 该 方法 中 ， 
DBM 的 每 一 层 被 单独 视 为 RBM， 进 行 训 练 。 第 一 层 被 训练 为 对 输入 数据 进行 建 模 。 
每 个 后 续 RBM 被 训练 为 对 来 自前 一 RBM 后 验 分 布 的 样本 进行 建 模 。 在 以 这 种 方 
式 训练 了 所 有 RBM 之 后 ， 它 们 可 以 被 组 合成 DBM。 然 后 可 以 用 PCD 训练 DBM. 
通常 ，PCD 训练 将 仅 使 模型 的 参数 、 由 数据 上 的 对 数 似 然 衡 量 的 性 能 、 或 区 分 输入 
的 能 力 发 生 微小 的 变化 。 见 图 20.4 展示 的 训练 过 程 。 

这 种 贪心 逐 层 训练 过 程 不 仅仅 是 坐标 上 升 。 因 为 我 们 在 每 个 步骤 优化 参数 的 一 
个 子 集 ， 它 与 坐标 上 升 具 有 一 些 传递 相似 性 。 这 两 种 方法 是 不 同 的 ， 因 为 贪心 逐 层 
训练 过 程 中 ， 我 们 在 每 个 步骤 都 使 用 了 不 同 的 目标 函数 。 

DBM 的 贪心 逐 层 预 训练 与 DBN 的 贪心 逐 层 预 训 练 不 同 ,每 个 单独 的 RBM 的 参 
数 可 以 直接 复制 到 相应 的 DBN。 在 DBM 的 情况 下 , RBM 的 参数 在 包含 到 DBM 中 
之 前 必须 修改 。RBM 栈 的 中 间 层 仅 使 用 自 底 向 上 的 输入 进行 训练 ， 但 在 栈 组 合 
形成 DBM 后 ， 该 层 将 同时 具有 自 底 向 上 和 自 项 向 下 的 输入 。 为 了 解释 这 种 效应 ， 
Salakhutdinov and Hinton (2009a) 提倡 在 将 其 插入 DBM 之 前 ,将 所 有 RBM (Iit 
部 和 底部 RBM 除外 ) 的 权重 除 2。 另 外 ， 必 须 使 用 每 个 可 见 单元 的 两 个 “副本 ”来 
训练 底部 RBM， 并 且 两 个 副本 之 间 的 权重 约束 为 相等 。 这 意味 着 在 向 上 传播 时 ， 权 
重 能 有 效 地 加 倍 。 类 似 地 ， 顶 部 RBM 应 当 使 用 最 顶层 的 两 个 副本 来 训练 。 

为 了 使 用 深度 玻 尔 效 曼 机 获得 最 好 结果 ,我 们 需要 修改 标准 的 SML 算法 , 即 在 联 
E POD 训练 步 又 的 负 相 期 间 使 用 少量 的 均匀 场 (Salakhutdinov and Hinton, 2009a)。 
具体 来 说 ， 应 当 相对 于 其 中 所 有 单元 彼此 独立 的 均匀 场 分 布 来 计算 能 量 梯 度 的 期 望 。 
这 个 均匀 场 分 布 的 参数 应 该 通过 运行 一 次 均匀 场 不 动 点 方程 获得 。Goodfellow et al. 
(2013d) 比较 了 在 负 相 中 使 用 和 不 使 用 部 分 均匀 场 的 中 心 化 DBM 的 性 能 。 
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算法 20.1 用 于 训练 具有 两 个 隐藏 层 的 DBM 的 变 分 随机 最 大 似 然 算 法 
设 步 长 e 为 一 个 小 正 数 
设 定 吉 布 斯 步 数 天， 大 到 足以 让 plv, a, nO ;0 +eAs) 的 马尔 可 夫 链 能 磨合 (从 
来 自 plv, hU? , n; 9) 的 样本 开始 )。 
初始 化 三 个 矩阵 , V, HO d 天” 每 个 都 将 m 行 设 为 随机 值 (例如 ,来 自 Bernoulli 
分 布 ， 边 缘分 布 大 致 与 模型 匹配 )。 
while 没有 收敛 ( 学 习 循 环 ) do 
从 训练 数据 采 包 含 m 个 样本 的 小 批量 ， 并 将 它们 排列 为 设计 和 矩阵 六 的 行 s 
初始 化 矩阵 AO qu 好 了”， 使 其 大 致 符合 模型 的 边缘 分 布 。 
while 没有 收敛 ( 均匀 场 推断 循环 ) do 
H & sigmoid (vw +H we). 
B" a sigmoid (i wo). 
end while 
Aum c b E 
Awe c LEO T gf 
fori —1tok (Gibbs 采样 ) do 
Gibbs block 1: 
Vi, j, Vi; SK HLP(V,; = 1) = sigmoid (we? (H) ) 
vi, j, HO A P(A = 1) = sigmoid (H w?). 
Gibbs block 2: 
vi, j, HO) RA P(A!) = 1) = sigmoid (V. WY +H, We”). 
end for 
AP Ayw RV Ho 
Ago Awo A HU 
WY — WO 4 Ayo (这 是 大 概 的 描述 ， 实 践 中 使 用 的 算法 更 高 效 ， 如 具有 
衰减 学 习 率 的 动量 ) 
WO — WO + eA yo 


end while 
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图 20.4: 用 于 分 类 MNIST 数据 集 的 深度 玻 尔 效 曼 机 训练 过 程 (Salakhutdinov and Hinton, 2009a; 
Srivastava et al., 2014)。(a) 使 用 CD 近似 最 大 化 log P(v) 来 训练 RBM。(b) 训练 第 二 个 RBM, 使 
CD-k 近似 最 大 化 log P(A, y) 来 建 模 hO 和 目标 类 y, Hp nO 采 自 第 一 个 RBM 条 件 于 数 
据 的 后 验 。 在 学 习 期 间 将 k 从 1 增加 到 20。(c) 将 两 个 RBM 组 合 为 DBM。 使 用 k = 5 的 随机 最 
大 似 然 训练 , 近似 最 大 化 log P(v,y)。(qd) 将 y 从 模型 中 删除 。 定义 新 的 一 组 特征 nO? 和 nO, np 
在 缺少 y 的 模型 中 运行 均匀 场 推断 后 获得 。 使 用 这 些 特征 作为 MLP 的 输入 ， 其 结构 与 均匀 场 的 额 
外 轮 相同 ,并 且 具 有 用 于 估计 y 的 额外 输出 层 。 初 始 化 MLP 的 权重 与 DBM 的 权重 相同 。 使 用 随机 
梯度 下 降 和 Dropout 训 练 MLP 近 似 最 大 化 log P(y | v)。 图 来 自 Goodfellow et al. (2013d)。 









































































































































20.4.5 ”联合 训练 深度 玻 尔 将 曼 机 


经 典 DBM 需要 贪心 无 监督 预 训练 ， 并 且 为 了 更 好 的 分 类 ， 需 要 在 它们 提取 
的 隐藏 特征 之 上 ， 使 用 独立 的 基于 MLP 的 分 类 器 。 这 种 方法 有 一 些 不 理想 的 性 
质 。 因 为 我 们 不 能 在 训练 第 一 个 RBM 时 评估 完整 DBM 的 属性 ， 所 以 在 训练 期 间 
难以 跟踪 性 能 。 因 此 ， 直 到 相当 晚 的 训练 过 程 ， 我 们 都 很 难 知道 我 们 的 超 参数 表 
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现 如 何 。DBM 的 软件 实现 需要 很 多 不 同 的 模块 ， 如 用 于 单个 RBM 的 CD 训练 、 
完整 DBM 的 PCD 训练 以 及 基于 反 向 传播 的 MLP 训练 。 最 后 ， 玻 尔 兹 曼 机 顶部 
的 MLP 失去 了 玻 尔 效 曼 机 概率 模型 的 许多 优点 ， 例 如 当 某 些 输入 值 丢 失 时 仍 能 够 
进行 推断 的 优点 。 

主要 有 两 种 方法 可 以 处 理 深度 玻 尔 效 曼 机 的 联合 训练 问题 。 第 一 个 是 中 心 化 深 
度 玻 尔 兹 曼 机 (centered deep Boltzmann machine) (Montavon and Muller, 2012), 通 
过 重 参 数 化 模型 使 其 在 开始 学 习 过 程 时 代价 函数 的 Hessian 具有 更 好 的 条 件数 。 这 
个 模型 不 用 经 过 贪心 逐 层 预 训练 阶段 就 能 训练 。 这 个 模型 在 测试 集 上 获得 出 色 的 
对 数 似 然 ， 并 能 产生 高 质量 的 样本 。 不 笠 的 是 ， 作 为 分 类 器 ， 它 仍然 不 能 与 适当 正 
则 化 的 MLP 竞争 。 联 合 训练 深度 玻 尔 效 曼 机 的 第 二 种 方式 是 使 用 多 预测 深度 玻 尔 
兹 曼 机 ( multi-prediction deep Boltzmann machine, MP-DBM ) (Goodfellow et al., 
2013d)。 该 模型 的 训练 准则 允许 反 向 传播 算法 ， 以 避免 使 用 MCMC 估计 梯度 的 问 
题 。 不 笠 的 是 ,新 的 准则 不 会 导致 良好 的 似 然 性 或 样本 ， 但 是 相 比 MCMC 方法 , 它 
确实 会 导致 更 好 的 分 类 性 能 和 良好 的 推 师 缺失 输入 的 能 

如 果 我 们 回 到 玻 尔 兹 曼 机 的 一 般 观点 ， 即 包括 一 组 权重 矩阵 U 和 偏 置 b 的 单元 
Z， 玻 尔 效 曼 机 中 心 化 技巧 是 最 容易 描述 的 。 回 顾 式 (20.2) ， 能 量 函 数 由 下 式 给 出 

















E(x) = —a' Uz — b! a. (20.36) 


在 权重 矩阵 U 中 使 用 不 同 的 稀 玻 模式 ， 我 们 可 以 实现 不 同 架构 的 玻 尔 效 曼 机 ， 
如 RBM 或 具有 不 同 层 数 的 DBM。 将 z 分 割 成 可 见 和 隐藏 单元 并 将 U 中 不 相互 作 
用 的 单元 的 归 零 可 以 实现 这 些 架构 。 中 心 化 玻 尔 兹 曼 机 引入 了 一 个 向 量 jy， 并 从 所 
有 状态 中 减 去 : 





E' (a U, b) = —(z — u)! U(z— p) — (x — p) b. (20.37) 


通常 u 在 开始 训练 时 固定 为 一 个 超 参数 。 当 模型 初始 化 时 ， 通 常 选 择 为 m— p m: 0。 
这 种 重 参数 化 不 改变 模型 可 表示 的 概率 分 布 的 集合 ， 但 它 确实 改变 了 应 用 于 似 然 
的 随机 梯度 下 降 的 动态 。 具 体 来 说 ， 在 许多 情况 下 ， 这 种 重 参 数 化 导致 更 好 条 件数 
的 Hessian ABE. Melchior et al. (2013) 通过 实验 证 实 了 Hessian 矩阵 条 件数 的 改 
善 ,并 观察 到 中 心 化 技巧 等 价 于 另 一 个 玻 尔 效 曼 机 学 习 技术 一 一 增强 梯度 (enhanced 
gradient) (Cho et al., 2011)。 即 使 在 困难 的 情况 下 ， 例 如 训练 多 层 的 深度 玻 尔 效 曼 
机 ，Hessian 矩阵 条 件数 的 改善 也 能 使 学 习 成 功 。 


联合 训练 深度 玻 尔 兹 曼 机 的 男 一 种 方法 是 多 预测 深度 玻 尔 兹 曼 机 ( MP-DBM ), 
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它 将 均匀 场 方程 视 为 定义 一 系列 用 于 近似 求解 每 个 可 能 推断 问题 的 循环 网 络 (Good- 
fellow et al., 2013d)。 模 型 被 训练 为 使 每 个 循环 网 络 获得 对 相应 推断 问题 的 准确 答 
案 ， 而 不 是 训练 模型 来 最 大 化 似 然 。 训 练 过 程 如 图 20.5 所 示 。 它 包括 随机 采 一 个 训 
练 样本 、 随 机 采样 推断 网 络 的 输入 子 集 ， 然 后 训练 推断 网 络 来 预测 剩余 单元 的 值 。 

这 种 用 于 近似 推断 ， 通 过 计算 图 进行 反 向 传播 的 一 般 原理 已 经 应 用 于 其 他 模 
型 (Stoyanov et al., 2011; Brakel et al., 2013)。 在 这 些 模 型 和 MP-DBM 中 ， 最 终 损 
失 不 是 似 然 的 下 界 。 相 反 ， 最 终 损失 通常 基于 近似 推断 网 络 对 缺失 值 施加 的 近似 条 
件 分 布 。 这 意味 着 这 些 模 型 的 训练 有 些 启发 式 。 如 果 我 们 检查 由 MP-DBM 学 习 出 来 
的 玻 尔 兹 曼 机 表示 p(v), TE Gibbs 采样 产生 较 差 样本 的 意义 下 ， 它 倾向 于 有 些 缺 陷 。 

通过 推断 图 的 反 向 传播 有 两 个 主要 优点 。 首 先 ， 它 以 模型 真正 使 用 的 方式 训练 
模型 一 一 使 用 近似 推断 。 这 意味 着 在 MP-DBM 中 ， 进 行 如 填充 缺失 的 输入 或 执行 
分 类 (尽管 存在 缺失 的 输入 ) 的 近似 推断 比 在 原始 DBM 中 更 准确 。 原 始 DBM 不 
会 自己 做 出 准确 的 分 类 器 ; 使 用 原始 DBM 的 最 佳 分 类 结果 是 基于 DBM 提取 的 特 
征 训 练 独立 的 分 类 器 ， 而 不 是 通过 使 用 DBM 中 的 推断 来 计算 关于 类 标签 的 分 布 。 
MP-DBM 中 的 均匀 场 推 断 作为 分 类 器 ， 不 需要 进行 特殊 修改 就 获得 良好 的 表现 。 通 
过 近似 推断 反问 传播 的 男 一 个 优点 是 反 向 传播 计算 损失 的 精确 梯度 。 对 于 优化 而 言 ， 
比 SML 训练 中 具有 偏差 和 方差 的 近似 梯度 更 好 。 这 可 能 解释 了 为 什么 MP-DBM 可 
以 联合 训练 ， 而 DBM 需要 贪心 逐 层 预 训练 。 近 似 推断 图 反 向 传播 的 缺点 是 它 不 提 
供 一 种 优化 对 数 似 然 的 方法 ， 而 提供 广义 伪 似 然 的 启发 式 近 似 。 

MP-DBM 启发 了 对 NADE 框架 的 扩展 NADE-k (Raiko et al., 2014) ， 我 们 将 
在 第 20.10.10 节 中 描述 。 

MP-DBM 与 Dropout 有 一 定 联系 。Dropout 在 许多 不 同 的 计算 图 之 间 共 享 相 
同 的 参数 ， 每 个 图 之 间 的 差异 是 包括 还 是 排除 每 个 单元 。MP-DBM 还 在 许多 计算 
图 之 间 共 享 参数 。 在 MP-DBM 的 情况 下 ， 图 之 间 的 差异 是 每 个 输入 单元 是 否 被 观 
察 到 。 当 没有 观察 到 单元 时 ，MP-DBM 不 会 像 Dropout 那样 将 其 完全 删除 。 相 反 ， 
MP-DBM 将 其 视 为 要 推断 的 潜 变 量 。 我 们 可 以 想象 将 Dropout 应 用 到 MP-DBM, 
即 额 外 去 除 一 些 单元 而 不 是 将 它们 变 为 潜 变 量 。 
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图 20.5: 深度 玻 尔 兹 曼 机 多 预测 训练 过 程 的 示意 图 。 每 一 行 指示 相同 训练 步骤 内 小 批量 中 的 不 同 
样本 。 每 列表 示 均 匀 场 推断 过 程 中 的 时 间 步 。 对 于 每 个 样本 ,我 们 对 数据 变量 的 子 集 进行 采样 ， 作 
为 推断 过 程 的 输入 。 这 些 变量 以 黑色 阴影 表示 条 件 。 然 后 我 们 运行 均匀 场 推断 过 程 ， 箭 头 指示 过 
程 中 的 哪些 变量 会 影响 其 他 变量 。 在 实际 应 用 中 ， 我 们 将 均匀 场 展 开 为 几 个 步 又 。 在 此 示意 图 中 ， 
我 们 只 展开 为 两 个 步 又。 虚线 箭头 表示 获得 更 多 步骤 需要 如 何 展 开 该 过 程 。 未 用 作 推 新 过 程 输 入 
的 数据 变量 成 为 目标 ， 以 灰色 阴影 表示 。 我 们 可 以 将 每 个 样本 的 推断 过 程 视 为 循环 网 络 。 为 了 使 
其 在 给 定 输入 后 能 产生 正确 的 目标 ， 我 们 使 用 梯度 下 降 和 反 向 传播 训练 这 些 循环 网 络 。 这 可 以 训 
练 MP-DBM 均匀 场 过 程 产生 准确 的 估计 。 图 改编 自 Goodfellow et al. (2013d)。 
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20.5 “ 实 值 数 据 上 的 玻 尔 效 曼 机 


虽然 玻 尔 效 曼 机 最 初 是 为 二 值 数据 而 开发 的 ， 但 是 许多 应 用 ， 例 如 网 像 和 音频 
建 模 似乎 需要 表示 实 值 上 概率 分 布 的 能 力 。 在 一 些 情 况 下 ， 我 们 可 以 将 区 间 [0, 1] 中 
的 实 值 数 据 视 为 表示 二 值 变量 的 期 望 。 例 如 ，Hinton (2000) 将 训练 集中 灰 度 图 像 的 
像素 值 视 为 定义 [0, 1] 间 的 概率 值 。 每 个 像素 定义 二 值 变 量 为 1 的 概率 ,并 日 二 值 像 
素 的 采样 都 彼此 独立 。 这 是 评估 灰 度 图 像 数 据 集 上 二 值 模型 的 常见 过 程 。 然 而 ， 这 
种 方法 理论 上 并 不 特别 令 人 满意 ， 并 且 以 这 种 方式 独立 采样 的 二 值 图 像 具 有 噪声 表 
象 。 在 本 节 中 ， 我 们 介绍 概率 密度 定义 在 实 值 数 据 上 的 玻 尔 效 曼 机 。 





20.5.1 Gaussian-Bernoulli RBM 





受 限 玻 尔 效 曼 机 可 以 用 于 许多 指数 族 的 条 件 分 布 (Welling et aL, 2005)。 其 中 ， 
最 常见 的 是 具有 二 值 隐藏 单元 和 实 值 可 见 单元 的 RBM， 其 中 可 见 单元 上 的 条 件 分 布 
是 高 斯 分 布 〈 均 值 为 隐藏 单元 的 函数 )。 

有 很 多 方法 可 以 参数 化 Gaussian-Bernoulli RBM。 首 先 ， 我 们 可 以 选择 协 方差 
和 抢 阵 或 精度 矩阵 来 参数 化 高 斯 分 布 。 这 里 ,我们 介绍 选择 精度 矩阵 的 情况 。 我 们 可 
以 通过 简单 的 修改 获得 协 方差 的 形式 。 我 们 希望 条 件 分 布 为 





plv | h) = N (v; Wh, 87+). (20.38) 
通过 扩展 未 归 一 化 的 对 数 条 件 分 布 可 以 找到 需要 添加 到 能 量 函 数 中 的 项 ; 
log. (v; Wh, 8-!) = -5(o- Wh)' B(v — Wh) + f(B). (20.39) 


此 处 f 封装 所 有 的 参数 ， 但 不 包括 模型 中 的 随机 变量 。 因 为 的 唯一 作用 是 归 
一 化 分 布 ， 并 且 我 们 选择 的 任何 可 作为 配 分 函数 的 能 量 函 数 都 能 起 到 这 个 作用 ， 所 
以 我 们 可 以 忽略 f。 

如 果 我 们 在 能 量 函 数 中 包含 式 (20.39) 中 涉及 v 的 所 有 项 ( 其 符号 被 翻转 )， 并 
且 不 添加 任何 其 他 涉及 v 的 项 ， 那 么 我 们 的 能 量 函 数 就 能 表示 想 要 的 条 件 分 布 
p(v | h). 

其 他 条 件 分 布 比较 自由 ， 如 p(h | v)。 注 意 式 (20.39) 包含 一 项 





1 
;^ W' B Wh. (20.40) 
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因为 该 项 包含 hih; 项 ， 它 不 能 被 全 部 包括 在 内 。 这 些 对 应 于 隐藏 单元 之 间 的 边 。 如 
果 我 们 包括 这 些 项 ， 我 们 将 得 到 一 个 线性 因子 模型 ， 而 不 是 受 限 玻 尔 兹 曼 机 。 当 设 
计 我 们 的 玻 尔 兹 曼 机 时 ， 我 们 简单 地 省 略 这 些 hh; 交叉 项 。 省 略 这 些 项 不 改变 条 件 
分 布 p(v| h), BEIR (20.39) 仍 满足 。 然而 ,我们 仍然 可 以 选择 是 否 包括 仅 涉及 单个 
hi 的 项 。 如 果 我 们 假设 精度 矩阵 是 对 角 的 ， 就 能 发 现 对 于 每 个 隐藏 单元 h, RITA 
一 项 





1 2 
5 3 AW. (20.41) 
J 


在 上 面 ， 我 们 使 用 了 h? = h; 的 事实 〈 因 为 h; € (0,11 )。 如 果 我 们 在 能 量 函 数 中 包 
含 此 项 (符号 被 翻转 )， 则 当 该 单元 的 权重 较 大 且 以 高 精度 连接 到 可 见 单 元 时 ， 偏 
置 h 将 自然 被 关闭 。 是 否 包括 该 偏 置 项 不 影响 模型 可 以 表示 的 分 布 族 (假设 我 们 包 
括 隐藏 单元 的 偏 置 参数 )， 但 是 它 确 实 会 影响 模型 的 学 习 动 态 。 包 括 该 项 可 以 帮助 隐 
藏 单元 (即使 权重 在 幅度 上 快速 增加 时 ) 保持 合理 激活 。 

因此 ， 在 Gaussian-Bernoulli RBM 上 定义 能 量 函 数 的 一 种 方式 : 








E(v,h) = 50" (8G v) - (v6 8)! Wh- b'h, (20.42) 


但 我 们 还 可 以 添加 额外 的 项 或 者 通过 方差 而 不 是 精度 参数 化 能 量 。 

在 这 个 推导 中 ,我 们 没有 在 可 见 单元 上 添加 偏 置 项 ， 但 添加 这 样 的 偏 置 是 容易 
的 。Gaussian-Bernoulli RBM 参数 化 一 个 最 终 变化 的 来 源 是 如 何 处 理 精度 矩阵 的 选 
择 。 它 可 以 被 固定 为 常数 ( 可 能 基于 数据 的 边缘 精度 估计 ) 或 学 习 出 来 。 它 也 可 以 
是 标量 乘 以 单位 矩阵 ， 或 者 是 一 个 对 角 和 矩阵 。 在 此 情况 下 ， 由 于 一 些 操作 需要 对 算 
阵 求 逆 , 我 们 通常 不 允许 非 对 角 的 精度 矩阵 ， 因 为 高 斯 分 布 的 一 些 操 作 需 要 对 矩阵 求 
wi, 一 个 对 角 和 矩阵 可 以 非常 容易 地 被 求 逆 。 在 接 下 来 的 章节 中 , 我 们 将 看 到 其 他 形式 
的 玻 尔 兹 曼 机 ， 它 们 允许 对 协 方差 结构 建 模 ， 并 使 用 各 种 技术 避免 对 精度 矩阵 求 逆 。 





























20.5.2 ”条 件 协 方 差 的 无 向 模型 


虽然 高 斯 RBM 已 成 为 实 值 数据 的 标准 能 量 模 型 , Ranzato et al. (2010a) 认为 高 
斯 RBM 感应 偏 置 不 能 很 好 地 适合 某 些 类 型 的 实 值 数据 中 存在 的 统计 变化 ， 特 别 是 
自然 图 像 。 问 题 在 于 自然 图 像 中 的 许多 信息 内 容 嵌 入 于 像素 之 间 的 协 方差 而 不 是 
原始 像素 值 中 。 换 名 话说， 图 像 中 的 大 多 数 有 用 信息 在 于 像素 之 间 的 关系 ， 而 不 是 
其 绝对 值 。 由 于 高 斯 RBM 仅 对 给 定 隐 藏 单元 的 输入 条 件 均值 建 模 ， 所 以 它 不 能 捕 
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获 条 件 协 方差 信息 。 为 了 回应 这 些 评论 , 已 经 有 学 者 提出 了 替代 模型 ， 设 法 更 好 地 
考虑 实 值 数据 的 协 方差 。 这 些 模 型 包括 均值 和 协 方差 RBM (mean and covariance 
RBM, mcRBM ) 1、 学 生 t 分 布 均值 乘积 (mean product of Student t-distribution, 
mPoT ) 模型 和 尖峰 和 平板 RBM (spike and slab RBM, ssRBM )。 


均值 和 协 方差 RBM mcRBM 使 用 隐藏 单元 独立 地 编码 所 有 可 观察 单元 的 条 件 均 
值 和 协 方差 。mcRBM 的 隐藏 层 分 为 两 组 单元 : 均值 单元 和 协 方差 单元 。 建 模 条 件 
均值 的 那 组 单元 是 简单 的 高 斯 RBM。 另 一 半 是 协 方 差 RBM (covariance RBM, 
cRBM ) (Ranzato et al., 2010a) ， 对 条 件 协 方差 的 结构 进行 建 模 (如 下 所 述 )。 

具体 来 说 , 在 二 值 均值 的 单元 nC? 和 二 值 协 方差 单元 n? 的 情况 下 , mcRBM 模 
型 被 定义 为 两 个 能 量 函 数 的 组 合 : 


Ec (a, hU?, AO) = E, (a, h™) + E. (um, h(?)), (20.43) 





HR En 为 标准 的 Gaussian-Bernoulli RBM 8E 5E PRA, 


1 m m m 
En (2, h™) = 532 2— D2 W.;h(? — V yum. (20.44) 
t - 





E. 是 CRBM 建 模 条 件 协 方差 信息 的 能 量 函 数 : 


(a, h(9) = iX ni) (gae?) CMS BAR, (20.45) 

















参数 rO 与 hO 关联 的 协 方差 权重 向 量 对 应 ，b' 是 一 个 协 方差 偏 置 向 量 。 组 合 后 
的 能 量 函 数 定义 联合 分 布 ， 


1 
Pract, A™, AO) = > exp { — Enel, h 9, ny}, (20.46) 


以 及 给 定 hU? 和 nO 后 ， 关 于 观察 数据 相应 的 条 件 分 布 (为 一 个 多 元 高 斯 分 布 ): 
palek, nO) =w (sse (Y wat ess. (20.47) 
y 


注意 协 方差 矩阵 CR = (D Pros eT) 是 非 对 角 的 ， 且 W 是 与 建 模 条 件 
均值 的 高 斯 RBM 相关 联 的 权重 矩阵 。 由 于 非 对 角 的 条 件 协 方差 结构 ， 难 以 通过 对 


1 术语 “mcRBM” 根据 字母 M-C-R-B-M A; “me” AEE “McDonald’s” PAY “Mc” WRT. 
?2 这 个 版 本 的 Gaussian-Bernoulli RBM 能 量 函 数 假定 图 像 数据 的 每 个 像素 具有 零 均值 。 考 虑 非 零 像 素 均值 时 ， 可 
以 简单 地 将 像素 偏 移 添加 到 模型 中 。 
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比 散 度 或 持续 性 对 比 散 度 来 训练 mcRBM. CD 和 PCD 需要 从 a, A”, hO 的 联合 
分 布 中 采样 ， 这 在 标准 RBM 中 可 以 通过 Gibbs 采样 在 条 件 分 布 上 采样 实现 。 但 是 ， 
在 mcRBM 中 ， 从 pac(z | h, RO) 中 抽样 需要 在 学 习 的 每 个 迭代 计算 (C™*)-1。 
这 对 于 更 大 的 观察 数据 可 能 是 不 切实 际 的 计算 负担 。Ranzato and Hinton (2010) 通 
过 使 用 mcRBM 自由 能 上 的 哈密 尔 顿 (混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 从 边缘 
p(w) 采样 ， 避 免 了 直接 从 条 件 pmc(z | hU?, n?) 抽样 。 











FE t 分 布 均值 乘积 “学生 上 分 布 均值 乘积 (mPoT ) 模型 (Ranzato et al., 2010b) 
以 类 似 mcRBM 扩展 cRBM 的 方式 扩展 PoT 模型 (Welling et al., 2003a)。 通 过 添 
加 类 似 高 斯 RBM 中 隐藏 单元 的 非 零 高 斯 均值 来 实现 。 与 mcRBM 一 样 ， 观 察 值 上 
的 PoT 条 件 分 布 是 多 元 高 斯 ( 具有 非 对 角 的 协 方差 ) 分 布 ; 然而 , 不 同 于 mcRBM , 
隐藏 变量 的 互补 条 件 分 布 是 由 条 件 独 立 的 Gamma 分 布 给 出 。Gamma 分 布 G(k, 0) 
是 关于 正 实数 且 均 值 为 ko 的 概率 分 布 。 我们 只 需 简 单 地 了 解 Gamma 分 布 就 足以 理 

解 mPoT 模型 的 基本 思想 。 

mPoT KJEE KAO : 
Empot (a, h, n(?) (20.48) 


c 1 ) C 
= En (æ, h?) Y (ni (1+ 5 (r9 2)*) + (1 — 74) log nf " (20.49) 
j 


其 中 rO 是 与 单元 nC? 相关 联 的 协 方差 权重 向 量 ，(z, h) 如 式 (20.44) 所 定义 。 
正如 mcRBM 一 样 ，mPoT 模型 能 量 琐 数 指定 一 个 多 元 高 斯 分 布 ， 其 中 关于 x 
的 条 件 分 布 具 有 非 对 角 的 协 方差 。mPoT 模型 中 的 学 习 (也 像 mcRBM ) 由 于 无 法 
从 非 对 角 高 斯 条 件 分 布 papor(z | ho”, n?) 采样 而 变 得 复杂 。 因 此 Ranzato et al. 
(2010b) 也 倡导 通过 哈密 尔 顿 ( 混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 采样 p(z)。 





尖峰 和 平板 RBM ”尖峰 和 平板 RBM (spike and slab RBM, ssRBM ) (Courville 
et al., 2011b) 提供 对 实 值 数 据 的 协 方差 结构 建 模 的 另 一 种 方法 。 与 mcRBM 相 
比 ，ssRBM 具有 既 不 需要 和 矩阵 求 逆 也 不 需要 哈密 尔 顿 蒙 特 卡 罗 方 法 的 优点 。 就 
像 mcRBM 和 mPoT 模型 ，ssRBM 的 二 值 隐藏 单 元 通过 使 用 辅助 实 值 变量 来 编码 
跨 像素 的 条 件 协 方差 。 

尖峰 和 平板 RBM 有 两 类 隐藏 单元 : 二 值 尖峰 (spike) 单元 h 和 实 值 平板 (slab) 
单元 so 条件 于 隐藏 单元 的 可 见 单元 均值 由 (Po s) W' 给 出 。 换 名 话说 , 每 一 列 W. 

















ww ai bbc. com rH BH BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
20.5 KARE LY HK RK VAL 581 


定义 当 h; = 1 时 可 出 现在 输入 中 的 分 量 。 相 应 的 尖峰 变量 h; 确定 该 分 量 是 否 存 在 。 
如 果 存 在 的 话 ， 相 应 的 平板 变量 s; 确定 该 分 量 的 强度 。 当 尖峰 变量 激活 时 ， 相 应 的 
平板 变量 将 沿 着 多; 定义 的 轴 的 输入 增加 方差 。 这 允许 我 们 对 输入 的 协 方差 建 模 。 
幸运 的 是 ， 使 用 Gibbs 采样 的 对 比 散 度 和 持续 性 对 比 散 度 仍然 适用 。 此 处 无 需 对 任 
fef XR PEOR aif 

ÆRE, ssRBM 模型 通过 其 能 量 函 数 定义 : 








1 
— T. 下 
Es (x, s, h) = — 25 a' W.s;h; + 52 (^ 4 2, sn) T (20.50) 


十 5 二 - ye + De oss (20.51) 


其 中 b; 是 尖峰 h 的 偏 置 ，A 是 观测 值 > EAA EEE. BR o; > 0 是 实 值 平 
板 变 量 si 的 标量 精度 参数 。 参 数 9, 是 定义 z 上 的 产 调 制 二 次 惩罚 的 非 负 对 角 矩 
PE. BET ji; 是 平板 变量 s; 的 均值 参数 。 
利用 能 量 函 数 定义 的 联合 分 布 ， 能 相对 容易 地 导出 ssRBM 条 件 分 布 。 例如, 38 
过 边缘 化 平板 变量 s， 给 定 二 值 尖峰 变量 h， 关 于 观察 量 的 条 件 分 布 由 下 式 给 出 
1 


We iz f Co( Ede, h) ds (20.52) 














( 
=N (z Co, >, Wanihi, Cin) (20.53) 





其 中 Co, = (A+ X; Pihi 一 3,0; h Wi W.;)-1。 最 后 的 等 式 只 有 在 协 方差 矩阵 
Cah 正定 时 成 立 。 

由 尖峰 变量 选 通 意味 着 hos 上 的 真实 边缘 分 布 是 稀疏 的 。 这 不 同 于 稀 蚊 编码 ， 
其 中 来 自 模 型 的 样本 在 编码 中 “几乎 从 不 ”( 在 测度 理论 意义 上 ) 包含 零 ， 并 日 需 
要 MAP 推 断 来 强加 稀 玖 性 。 

相 比 mcRBM 和 mPoT 模型 ，ssRBM 以 明显 不 同 的 方式 参数 化 观察 量 的 条 件 
协 方差 。mcRBM 和 mPoT 都 通过 (55; hO ré) rT + NT 建 模 观察 量 的 协 方差 
结构 ， 使 用 hy > 0 的 隐藏 单元 的 激活 来 对 方向 rO 的 条 件 协 方差 施加 约束 。 相 反 ， 
ssRBM 使 用 隐藏 尖峰 激活 hi = 1 来 指定 观察 结果 的 条 件 协 方差 ， 以 沿 着 由 相应 权 
重 向 量 指定 的 方向 捏合 精度 矩阵 。ssRBM 条 件 协 方差 与 一 个 不 同 模型 给 出 的 类 似 ; 
概率 主 成 分 分 析 的 乘积 (PoPPCA ) (Williams and Agakov, 2002)。 在 过 完备 的 设 定 
下 ，ssRBM 参数 化 的 稀 玻 激活 仅 人 允许 在 稀 玻 激活 h, 的 所 选 方向 上 有 显著 方差 (高 





ww ai bbc. com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
582 第 二 十 章 ”深度 生成 模型 


于 由 AC! 给 出 的 近似 方差 )。 在 mcRBM 或 mPoT 模型 中 ， 过 完备 的 表示 意味 着 ， 
捕获 观察 空间 中 特定 方向 上 的 变化 需要 在 该 方向 上 的 正 交 投影 下 去 除 潜在 的 所 有 约 
束 。 这 表明 这 些 模型 不 太 适 合 于 过 完备 设 定 。 

尖峰 和 平板 RBM 的 主要 缺点 是 参数 的 一 些 设置 会 对 应 于 非 正 定 的 协 方差 矩阵 。 
这 种 协 方差 矩阵 会 在 离 均 值 更 远 的 值 上 放置 更 大 的 未 归 一 化 概率 ， 导 致 所 有 可 能 结 
果 上 的 积分 发 散 。 通 常 这 个 问题 可 以 通过 简单 的 启发 式 技巧 来 避免 。 理 论 上 还 没有 
任何 令 人 满意 的 解决 方法 。 使 用 约束 优化 来 显 式 地 避免 概率 未 定义 的 区 域 (不 过 分 
保守 是 很 难 做 到 的 )， 并 且 这 还 会 阻止 模型 到 达 参 数 空间 的 高 性 能 区 域 。 

定性 地 ，ssRBM 的 卷 积 变 体能 产生 自然 图 像 的 优秀 样本 。 图 16.1 中 展示 了 一 些 
样 例 。 

ssRBM 人 允许 几 个 扩展 ， 包 括 平板 变量 的 高 阶 交 互 和 平均 池 化 (Courville et al., 
2014) 使 得 模型 能 够 在 标注 数据 稀缺 时 为 分 类 妖 学 习 到 出 色 的 特征 。 向 能 量 函 
数 添 加 一 项 能 防止 配 分 函数 在 稀 玻 编码 模型 下 变 得 不 确定 ， 如 尖峰 和 平板 稀 玻 编 
但 (Goodfellow et al., 2013g), ， 也 称 为 S3C. 








20.6 AHR =A 


如 第 九 章 所 示 ， 超 高 维度 输入 〈 如 图 像 ) 会 对 机 器 学 习 模 型 的 计算 、 内 存 和 统 
计 要 求 造 成 很 大 的 压力 。 通 过 使 用 小 核 的 离散 卷 积 来 蔡 换 和 矩 阵 乘法 是 解决 具有 空间 
平移 不 变性 或 时 间 结 构 的 输入 问题 的 标准 方式 。Desjardins and Bengio (2008) 表明 
这 种 方法 应 用 于 RBM 时 效果 很 好 。 

深度 卷 积 网 络 通常 需要 池 化 操作 ， 使 得 每 个 连续 层 的 空间 大 小 减 小 。 前 馈 卷 积 
网 络 通常 使 用 池 化 函数 ， 例 如 池 化 元 素 的 最 大 值 。 目 前 尚 不 清楚 如 何 将 其 推广 到 基 
于 能 量 的 模型 的 设 定 中 。 我 们 可 以 在 ”个 二 值 检测 器 单元 d 上 引入 二 值 池 化 单元 p, 
强制 p= max; d;， 并 且 当 违反 约束 时 将 能 量 函 数 设置 为 co。 因 为 它 需要 评估 2" 个 
不 同 的 能 量 设置 来 计算 归 一 化 常数 ,这 种 方式 不 能 很 好 地 扩展 。 对 于 小 的 3 x 3 池 化 
区 域 ， 每 个 池 化 单元 需要 评估 2° = 512 AAEE KA! 

Lee et al. (2009) 针对 这 个 问题 ， 开 发 了 一 个 称 为 概率 最 大 池 化 (probabilistic 
max pooling) 的 解决 方案 (不 要 与 “随机 池 化 ” 混 消 ,“ 随 机 池 化 ”是 用 于 隐 含 地 构 
建 卷 积 前 馈 网 络 集成 的 技术 )。 概 率 最 大 池 化 背后 的 策略 是 约束 检测 器 单元 ， 使 得 一 
次 最 多 只 有 一 个 可 以 处 于 活动 状态 。 这 意味 着 仅 存 在 n 十 1 个 总 状态 On 个 检测 需 
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单元 中 某 一 个 状态 为 开 和 一 个 对 应 于 所 有 检测 器 单元 关闭 的 附加 状态 )。 当 且 仅 当 检 
测 需 单 元 中 的 一 个 开启 时 ， 池 化 单元 打开 。 所 有 单元 的 状态 关闭 时 ， 能 量 被 分 配 为 
零 。 我 们 可 以 认为 这 是 在 用 包含 n + 1 个 状态 的 单个 变量 来 描述 模型 ， 或 者 等 价 地 
具有 n+1 个 变量 的 模型 ， 除了 nn 十 1 个 联合 分 配 的 变量 之 外 的 能 量 赋 为 co。 

虽然 高 效 的 概率 最 大 池 化 确实 能 强迫 检测 器 单元 互 斥 ， 这 在 某 些 情景 下 可 能 是 
有 用 的 正则 化 约束 而 在 其 他 情景 下 是 对 模型 容量 有 害 的 限制 。 它 也 不 支持 重 羡 池 化 
区 域 。 从 前 馈 卷 积 网 络 获得 最 佳 性 能 通常 需要 重 闪 的 池 化 区 域 ， 因 此 这 种 约束 可 能 
大 大 降低 了 卷 积 玻 尔 兹 曼 机 的 性 能 。 

Lee et al. (2009) 证 明 概 率 最 大 池 化 可 以 用 于 构建 卷 积 深度 玻 尔 兹 曼 机 3。 该 模 
型 能 够 执行 诸如 填补 输入 缺失 部 分 的 操作 。 虽 然 这 种 模型 在 理论 上 有 吸引 力 ， 让 它 
在 实践 中 工作 是 具有 挑战 性 的 ， 作 为 分 类 器 通常 不 如 通过 监督 训练 的 传统 卷 积 网 络 。 

许多 卷 积 模型 对 于 许多 不 同 空间 大 小 的 输入 同样 有 效 。 对 于 玻 尔 效 曼 机 ， 由 于 
各 种 原因 很 难 改变 输入 尺寸 。 配 分 函数 随 着 输入 大 小 的 改变 而 改变 。 此 外 , 许多 卷 积 
网 络 按 与 输入 大 小 成 比例 地 缩放 池 化 区 域 来 实现 尺寸 不 变性 ,， 但 缩放 玻 尔 效 曼 机 池 
化 区 域 是 不 优雅 的 。 传 统 的 卷 积 神经 网 络 可 以 使 用 固定 数量 的 池 化 单元 并 且 动 态 地 
增加 它们 池 化 区 域 的 大 小 ， 以 此 获得 可 变 大 小 输入 的 固定 尺寸 的 表示 。 对 于 玻 尔 效 
曼 机 ， 大 型 池 化 区 域 的 计算 成 本 比 朴 素 方法 高 很 多 。Lee et al. (2009) 的 方法 使 得 每 
个 检测 器 单元 在 相同 的 池 化 区 域 中 互 斥 ， 解 决 了 计算 问题 ， 但 仍然 不 允许 大 小 可 变 
的 池 化 区 域 。 例 如 ， 假 设 我 们 在 学 习 边 缘 检测 器 时 ， 检 测 器 单元 上 具有 2 x 2 的 概率 
最 大 池 化 。 这 强制 约束 在 每 个 2 x 2 的 区 域 中 只 能 出 现 这 些 边 中 的 一 条 。 如 果 我 们 随 
后 在 每 个 方向 上 将 输入 图 像 的 大 小 增加 50%， 则 期 望 边缘 的 数量 会 相应 地 增加 。 相 
反 ， 如 果 我 们 在 每 个 方向 上 将 池 化 区 域 的 大 小 增加 5096 到 3 x 3， 则 互 斥 性 约束 现 
在 指定 这 些 边 中 的 每 一 个 在 x 3 区 域 中 仅 可 以 出 现 一 次 。 当 我 们 以 这 种 方式 增长 模 
型 的 输入 图 像 时 ， 模 型 会 生成 密度 较 小 的 边 。 当 然 ， 这 些 问题 只 有 在 模型 必须 使 用 
可 变数 量 的 池 化 ， 以 便 产 出 固定 大 小 的 输出 向 量 时 才 会 出 现 。 只 要 模型 的 输出 是 可 
以 与 输入 图 像 成 比例 缩放 的 特征 图 ， 使 用 概率 最 大 池 化 的 模型 仍然 可 以 接受 可 变 大 
小 的 输入 图 像 。 

图 像 边界 处 的 像素 也 带 来 一 些 困 难 ， 由 于 玻 尔 效 曼 机 中 的 连接 是 对 称 的 事实 而 
加 剧 。 如 果 我 们 不 隐 式 地 补 零 输 入 ， 则 将 会 导致 比 可 见 单元 更 少 的 隐藏 单元 ， 并 且 
图 像 边 界 处 的 可 见 单元 将 不 能 被 良好 地 建 模 ， 因 为 它们 位 于 较 少 隐藏 单元 的 接受 场 


?该 论文 将 模型 描述 为 “深度 信念 网 络 ”， 但 因为 它 可 以 被 描述 为 纯 无 向 模型 ( 具有 易 处 理 逐 层 均匀 场 不 动 点 更 新 )， 
所 以 它 最 适合 深度 玻 尔 效 曼 机 的 定义 。 
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中 。 然 而 ， 如 果 我 们 隐 式 地 补 零 输入 ， 则 边界 处 的 隐藏 单元 将 由 较 少 的 输入 像素 驱 
动 ， 并 且 可 能 在 需要 时 无 法 激活 。 


20.7. ”用 于 结构 化 或 序列 输出 的 玻 尔 兹 曼 机 


在 结构 化 输出 场景 中 ,我们 希望 训练 可 以 从 一 些 输入 z 映射 到 一 些 输出 y 的 模 
型 ，y 的 不 同 条 目 彼 此 相关 ， 并 且 必 须 遵 守 一 些 约束 。 例 如 ， 在 语音 合成 任务 中 ，yy 
是 波形 ， 并 且 整 个 波形 听 起 来 必须 像 连 贯 的 发 音 。 

表示 y 中 的 条 目 之 间 关 系 的 自然 方式 是 使 用 概率 分 布 p(y | 由。 扩展 到 建 模 条 
件 分 布 的 玻 尔 效 曼 机 可 以 支持 这 种 概率 模型 。 

使 用 玻 尔 兹 曼 机 条 件 建 模 的 相同 工具 不 仅 可 以 用 于 结构 化 输出 任务 ， 还 可 以 用 
于 序列 建 模 ,在 后 一 种 情况 下 ,模型 必须 估计 变量 序列 上 的 概率 分 布 p(x, 22. x), 
而 不 仅仅 是 将 输入 z 映射 到 输出 y。 为 完成 这 个 任务 ， 条 件 玻 尔 兹 曼 机 可 以 表示 
p(x | x(0,..., x 079) 形式 的 因子 。 

视频 游戏 和 电影 工业 中 一 个 重要 序列 建 模 任务 是 建 模 用 于 泻 染 3-D 人 物 骨 架 关 
节 角 度 的 序列 。 这些 序 列 通常 通过 记录 角色 移动 的 运动 捕获 系统 收集 。 人 物 运 动 的 概 
率 模型 允许 生成 新 的 (之 前 没 见 过 的 ) 但 真实 的 动画 。 为 了 解决 这 个 序列 建 模 任务 ， 
Taylor et al. (2007) 针对 小 的 m 引入 了 条 件 RBM 建 模 p(x | x70, ..., a (770), 
该 模型 是 z(zi9) 上 的 RBM， 其 偏 置 参数 是 x 前 面 m 个 值 的 线性 函数 。 当 我 们 条 件 
于 zt 的 不 同 值 和 更 早 的 变量 时 ， 我 们 会 得 到 一 个 关于 x 的 新 RBM, RBM 关于 
x 的 权重 不 会 改变 , 但 是 条 件 于 不 同 的 过 去 值 , 我 们 可 以 改变 RBM 中 的 不 同 隐藏 单 
元 处 于 活动 状态 的 概率 。 通 过 激活 和 去 激活 隐藏 单元 的 不 同 子 集 ， 我 们 可 以 对 x 上 
诱导 的 概率 分 布 进行 大 的 改变 。 条 件 RBM 的 其 他 变 体 (Mnih et al., 2011) 和 使 用 
条 件 RBM 进行 序列 建 模 的 其 他 变 体 是 可 能 的 (Taylor and Hinton, 2009; Sutskever 
et al., 2009; Boulanger-Lewandowski et al., 2012)。 

另 一 个 序列 建 模 任务 是 对 构成 歌曲 音符 序列 的 分 布 进行 建 模 。Boulanger- 
Lewandowski et al. (2012) 引入 了 RNN-RBM 序列 模型 并 应 用 于 这 个 任务 。RNN- 
RBM 由 RNN (产生 用 于 每 个 时 间 步 的 RBM 参数 ) 组 成 ， 是 帧 序列 aO 的 生成 模 
型 。 与 之 前 只 有 RBM 的 偏 置 参数 会 在 一 个 时 间 步 到 下 一 个 发 生变 化 的 方法 不 同 ， 
RNN-RBM 使 用 RNN 来 产生 RBM 的 所 有 参数 (包括 权重 )。 为 了 训练 模型 ， 我 们 
需要 能 够 通过 RNN 反 向 传播 损失 函数 的 梯度 。 损 失 函数 不 直接 应 用 于 RNN 输出 。 
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相反 ， 它 应 用 于 RBM。 这 意味 着 我 们 必须 使 用 对 比 散 度 或 相关 算法 关于 RBM 参数 
进行 近似 的 微分 。 然 后 才 可 以 使 用 通常 的 通过 时 间 反 向 传播 算法 通过 RNN 反 向 传 
播 该 近似 梯度 。 


20.8 ”其 他 玻 尔 兹 曼 机 


玻 尔 效 曼 机 的 许多 其 他 变种 是 可 能 的 。 

玻 尔 效 曼 机 可 以 用 不 同 的 训练 准则 扩展 。 我 们 专注 于 训练 为 大 臻 最 大 化 生成 标 
HE logp(v) 的 玻 尔 兹 曼 机 。 相 反 ， 旨 在 最 大 化 logp(y | v) 来 训练 判别 的 RBM 也 是 
有 可 能 的 (Larochelle and Bengio, 2008b)。 当 使 用 生成 性 和 判别 性 标准 的 线性 组 合 
时 ， 该 方法 通常 表现 最 好 。 不 幸 的 是 ， 至 少 使 用 现 有 的 方法 来 看 ，RBM 似乎 并 不 
如 MLP 那样 的 监督 学 习 器 强大 。 

在 实践 中 使 用 的 大 多 数 玻 尔 效 曼 机 在 其 能 量 函 数 中 仅 具 有 二 阶 相 互 作用 ， 意 味 
着 它们 的 能 量 函 数 是 许多 项 的 和 ， 并 且 每 个 单独 项 仅 包括 两 个 随机 变量 之 间 的 乘积 。 
这 种 项 的 一 个 例子 是 vjWih;s 我 们 还 可 以 训练 高 阶 玻 尔 效 曼 机 (Sejnowski, 1987) 
， 其 中 能 量 函 数 项 涉及 许多 变量 的 乘积 。 隐 藏 单 元 和 两 个 不 同 图 像 之 间 的 三 向 交互 
可 以 建 模 从 一 个 视频 帧 到 下 一 个 帧 的 空间 变换 (Memisevic and Hinton, 2007, 2010). 
通过 one-hot 类 别 变量 的 乘法 可 以 根据 存在 哪个 类 来 改变 可 见 单元 和 隐藏 单元 之 间 的 
关系 (Nair and Hinton，2009)。 使 用 高 阶 交 互 的 一 个 最 近 的 示例 是 具有 两 组 隐藏 单 
元 的 玻 尔 效 曼 机 ， 一 组 同时 与 可 见 单元 v 和 类 别 标 签 y 交互 ， 另 一 组 仅 与 输入 值 v 
交互 (Luo et al., 2011)。 这 可 以 被 解释 为 鼓励 一 些 隐藏 单元 学 习 使 用 与 类 相关 的 特 
征 来 建 模 输入 ， 而 且 还 学 习 额 外 的 隐藏 单元 (不 需要 根据 样本 类 别 ， 学 习 逼 真 v 样 
本 所 需 的 繁琐 细节 )。 高 阶 交互 的 男 一 个 用 途 是 选 通 一 些 特征 。Sohn et al. (2013) 介 
绍 了 一 个 带 有 三 阶 交 互 的 玻 尔 兹 曼 机 ， 以 及 与 每 个 可 见 单元 相关 的 二 进 制 掩 码 变量 。 
当 这 些 掩 码 变量 设置 为 零 时 ， 它 们 消除 可 见 单元 对 隐藏 单元 的 影响 。 这 允许 将 与 分 
类 问题 不 相关 的 可 见 单元 从 估计 类 别 的 推断 路 径 中 移 除 。 

更 一 般 地 说 ， 玻 尔 效 曼 机 框架 是 一 个 丰富 的 模型 空间 ， 人 允许 比 迄 今 为 止 已 经 探 
索 的 更 多 的 模型 结构 。 开 发 新 形式 的 玻 尔 效 曼 机 相 比 于 开发 新 的 神经 网 络 层 需要 更 
多 细心 和 创造 力 ， 因 为 它 通 常 很 难 找到 一 个 能 保持 玻 尔 兹 曼 机 所 需 的 所 有 不 同 条 件 
分 布 的 可 解 性 的 能 量 函 数 。 尽 管 这 需要 努力 ， 该 领域 仍 对 创新 开放 。 
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20.9 ”通过 随机 操作 的 反 向 传播 


传统 的 神经 网 络 对 一 些 输入 变量 z 施加 确定 性 变换 。 当 开发 生成 模型 时 ， 我 们 
经 常 希 望 扩展 神经 网 络 以 实现 ce 的 随机 变换 。 这 样 做 的 一 个 直接 方法 是 使 用 额外 输 
入 z (从 一 些 简单 的 概率 分 布 采样 得 到 ， 如 均匀 或 高 斯 分 布 ) 来 增强 神经 网 络 。 神 经 
网 络 在 内 部 仍 可 以 继续 执行 确定 性 计算 ,但 是 函数 f(e, 2) 对 于 不 能 访问 z 的 观察 者 
来 说 将 是 随机 的 。 假 设 是 连续 可 微 的 ， 我 们 可 以 像 往 常 一 样 使 用 反 向 传播 计算 训 
练 所 需 的 梯度 。 

作为 示例 ， 让 我 们 考虑 从 均值 p 和 方差 o? 的 高 斯 分 布 中 采样 y 的 操作 : 


y~ N(u, o°): (20.54) 








因为 y 的 单个 样本 不 是 由 函数 产生 的 ， 而 是 由 一 个 采样 过 程 产 生 ， 它 的 输出 会 随 我 
们 的 每 次 查询 变化 ， 所 以 取 y 相对 于 其 分 布 的 参数 u 和 o? 的 导数 似乎 是 违反 直觉 
的 。 然 而 ,我 们 可 以 将 采样 过 程 重 写 ， 对 基本 随机 变量 z ~ N (2; 0, 1) 进行 转换 以 从 
期 望 的 分 布 获得 样本 : 





y —p 62. (20.55) 





现在 我 们 将 其 视 为 具有 额外 输入 z 的 确定 性 操作 ， 可 以 通过 采样 操作 来 反 向 传 
播 。 至 关 重 要 的 是 ， 人 额外 输入 是 一 个 随机 变量 ， 其 分 布 不 是 任何 我 们 想 对 其 计算 导 
数 的 变量 的 函数 。 如 果 我 们 可 以 用 相同 的 z 值 再 次 重复 采样 操作 ， 结 果 会 告诉 我 们 
p. 3X o. 的 微小 变化 将 会 如 何 改变 输出 。 

能 够 通过 该 采样 操作 反 向 传播 允许 我 们 将 其 并 人 更 大 的 图 中 。 我 们 可 以 在 采样 
分 布 的 输出 之 上 构建 图 元 素 。 例 如 ， 我 们 可 以 计算 一 些 损失 函数 .J(y) 的 导数 。 我 们 
还 可 以 构建 这 样 的 图 元 素 ， 其 输出 是 采样 操作 的 输入 或 参数 。 例 如 ， 我 们 可 以 通过 
w= f(250) Alo = g(z;9) 构建 更 大 的 图 。 在 这 个 增强 图 中 ,我 们 可 以 通过 这 些 函 数 
的 反 向 传播 导出 VeJ(y)。 

在 该 高 斯 采样 示例 中 使 用 的 原理 能 更 广泛 地 应 用 。 我 们 可 以 将 任何 形 为 p(y; 0) 
或 p(y | a; 0) 的 概率 分 布 表 示 为 p(y |w), RF w 是 同时 包含 参数 0 和 输入 z 的 变 
tt (如 果 适 用 的 话 )。 给 定 从 分 布 p(y | e) 采样 的 值 y HP w 可 以 是 其 他 变量 的 函 
数 )， 我 们 可 以 将 








y ^ pty |w) (20.56) 
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重 写 为 
y= f(z%w), (20.57) 


其 中 oz 是 随机 性 的 来 源 。 只 要 Of 是 几乎 处 处 连续 可 微 的 ， 我 们 就 可 以 使 用 传统 
工具 (例如 应 用 于 f 的 反 向 传播 算法 ) 计算 y 相对 于 w 的 导数 。 至 关 重 要 的 是 ， 
w 不 能 是 z 的 函数 ， 且 z 不 能 是 w 的 函数 。 这 种 技术 通常 被 称 为 重 参 数 化 技巧 
(reparametrization trick )、 随 机 反 向 传播 (stochastic back-propagation) 或 扰动 分 析 
(perturbation analysis), 

BOR f 是 连续 可 微 的 ， 当 然 需 要 y 是 连续 的 。 如 果 我 们 希望 通过 产生 离散 值 
样本 的 采样 过 程 进行 反 向 传播 ， 则 可 以 使 用 强化 学 习 算 法 (如 REINFORCE 算法 
(Williams, 1992) 的 变 体 ) 来 估计 w 上 的 梯度 ， 这 将 在 第 20.9.1 节 中 讨论 。 

在 神经 网 络 应 用 中 , 我 们 通常 选择 从 一 些 简单 的 分 布 中 采样 z， 如 单位 均匀 分 布 
或 单位 高 斯 分 布 ， 并 通过 网 络 的 确定 性 部 分 重 塑 其 输入 来 实现 更 复杂 的 分 布 。 

通过 随机 操作 扩展 梯度 或 优化 的 想法 可 追溯 到 二 十 世纪 中 叶 (Price, 1958; 
Bonnet，1964) ， 并 且 首 先 在 强化 学 习 (Williams, 1992) 的 情景 下 用 于 机 器 学 习 。 
最 近 ， 它 已 被 应 用 于 变 分 近似 (Opper and Archambeau, 2009) 和 随机 生成 神经 网 
络 (Bengio et al., 2013b; Kingma, 2013; Kingma and Welling, 2014b,a; Rezende et al., 
2014; Goodfellow et al., 2014c)。 许 多 网 络 ， 如 去 噪 自 编码 器 或 使 用 Dropout 的 正则 
化 网 络 ， 也 被 自然 地 设计 为 将 噪声 作为 输入 ， 而 不 需要 任何 特殊 的 重 参数 化 就 能 
噪声 独立 于 模型 。 








20.9.1 ”通过 离散 随机 操作 的 反 向 传播 


当 模型 发 射 离散 变量 y 时 ， 重 参数 化 技巧 不 再 适用 。 假 设 模型 采用 输入 z 和 参 
数 6， 两 者 都 封装 在 向 量 w rp, 并且 将 它们 与 随机 噪声 z 组 合 以 产生 y: 





y= f(z c). (20.58) 


因为 y 是 离散 的 ，f 必须 是 一 个 阶 路 函数 。 阶 路 函数 的 导数 在 任何 点 都 是 没 用 的 。 
在 每 个 阶 路 边界， 导数 是 未 定义 的 ， 但 这 是 一 个 小 问题 。 大 问题 是 导数 在 阶 路 边界 
之 间 的 区 域 几 乎 处 处 为 零 。 因 此 ， 任 何 代价 函数 J(y) 的 导数 无 法 给 出 如 何 更 新 模型 
参数 9 的 任何 信息 。 
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REINFORCE 算法 (REward Increment — nonnegative Factor x Offset Rein- 
forcement x Characteristic Eligibility ) 提供 了 定义 一 系列 简单 而 强大 解决 方案 的 框 
架 (Williams, 1992)。 其 核心 思想 是 ， 即 使 7(f(z;w)) 是 具有 无 用 导数 的 阶 跃 函数 ， 
期 望 代价 Ezp d (f(z) 通常 是 服从 梯度 下 降 的 光滑 函数 。 虽 然 当 y 是 高 维 (或 
者 是 许多 离散 随机 决策 组 合 的 结果 ) 时 ， 该 期 望 通常 是 难 解 的 ， 但 我 们 可 以 使 用 蒙 
特 卡 罗平 均 进 行 无 偏 估 计 。 梯度 的 随机 估计 可 以 与 SGD 或 其 他 基于 随机 梯度 的 优化 
技术 一 起 使 用 。 


通过 简单 地 微分 期 望 成 本 ,我们 可 以 推导 出 REINFORCE 最 简单 的 版 本 : 












































E,[J(y)] = > ; J(y)p(y). (20.59) 
OE[(y)) _ Op(y) 

pp = 2 Jy) ae (20.60) 

= D (p(w EP) (20.61) 

x = 3 iy) eleg) (20.62) 


yO v p(y),i—1 


式 (20.60) 依赖 于 J 不 直接 引用 w 的 假设 。 放 松 这 个 假设 来 扩展 该 方法 是 简单 的 。 
式 (20.61) 利用 对 数 的 导数 规则 ， 呈 中 — 1900». zt (20.62) 给 出 了 该 梯度 的 无 
偏 蒙特 卡 罗 佑 计 。 

在 本 节 中 我 们 写 的 p(y)， 可 以 等 价 地 写成 p(y | 办。 这 是 因为 ply) 由 w 参数 化 ， 
并 且 如 果 m 存在，w 包含 8 和 z 两 者 。 

简单 REINFORCE 估计 的 一 个 问题 是 其 具有 非常 高 的 方差 ， 需 要 采 y 的 许多 
样本 才能 获得 对 梯度 的 良好 估计， 或 者 等 价 地 ， 如 果 仅 绘制 一 个 样本 ，SGD 将 收 
敛 得 非常 缓慢 并 将 需要 较 小 的 学 习 率 。 通 过 使 用 方差 减 小 ( variance reduction ) 方 
法 (Wilson, 1984; L'Ecuyer, 1994) ， 可 以 地 减少 该 估计 的 方差 。 想 法 是 修改 估计 量 ， 
使 其 预期 值 保持 不 变 ， 但 方差 减 小 。 在 REINFORCE 的 情况 下 提出 的 方差 减 小 方 
法 ,涉及 计算 用 于 偏 移 J(y) 的 基线 (baseline)。 注 意 ,不 依赖 于 y 的 任何 偏 移 b(w) 
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都 不 会 改变 估计 梯度 的 期 望 ， 因 为 


























Epo) iru - rly) SP) (20.63) 
-— ora) (20.64) 
= 2 Drv) = Ža — 0, (20.65) 
意味 着 
Epo |(F(y) - b1 pu Epo J( e — bw) Envy ae 
(20.66) 
= Ey(y) ry mental) (20.67) 





此 外 ， 我们 可 以 通过 计算 (J(y) — b(w)) 2282 关于 p(y) 的 方差 ,并 关于 b(w) 最 小 
化 获得 最 优 b(w)。 我 们 发 现 这 个 最 佳 基线 b^ (o); 对 于 向 量 w 的 每 个 元 素 wi 是 不 同 











AY: 
Epo |J (y) gee 
ro, al on 
p(y) Bui 
相对 于 wi 的 梯度 估计 则 变 为 
81 
(J(y) — b(w);) iu ) (20.69) 





其 中 b(w); 估计 上 述 b (w)io 获得 估计 "通常 需要 将 额外 输出 添加 到 神经 网 络 ， 并 训 
练 新 输出 对 w 的 每 个 元 素 估计 Eycy)[J(y ) Peery” | 和 Ey [et 这 些 额 外 的 输 
出 可 以 用 均 方 误差 目标 训练， 对 于 给 定 的 w, 从 p( Ae te 分 别 用 J( 2 
Al tee” 作 目 标 。 然 后 可 以 将 这 些 估计 代入 式 (20.68) 就 能 恢复 估计 bo Mnih and 
Gregor (2014) 倾向 于 使 用 通过 目标 J(y) 训练 的 单个 共享 输出 〈 跨越 w 的 所 有 元 素 
1 )， 并 使 用 blw) ~ Epo [J (y)] 作为 基线 。 


在 强化 学 习 背 景 下 引入 的 方差 减 小 方法 (Sutton et al., 2000; Weaver and Tao, 
2001), Dayan (1990) 推广 了 二 值 奖励 的 前 期 工作 。 可 以 参考 Bengio et al. (2013b) , 
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Mnih and Gregor (2014), Ba et al. (2014), Mnih et al. (2014) 或 Xu et al. (2015) 中 
在 深度 学 习 的 背景 下 使 用 减少 方差 的 REINFORCE 算法 的 现代 例子 。 除 了 使 用 与 输 
人 相关 的 基线 b(w), Mnih and Gregor (2014) 发 现 可 以 在 训练 期 间 调 整 (J(y) 一 5(w)) 
的 尺度 ( 即 除 以 训练 期 间 的 移动 平均 估计 的 标准 差 )， 即 作为 一 种 适应 性 学 习 率 ， 可 
以 抵消 训练 过 程 中 该 量 大 小 发 生 的 重要 变化 的 影响 。Mnih and Gregor (2014) 称 之 
为 启发 式 方差 归 一 化 (variance normalization)。 

基于 REINFORCE 的 估计 器 可 以 被 理解 为 将 y 的 选择 与 7(y) 的 对 应 值 相关 联 
来 佑 计 梯度 。 如 果 在 当前 参数 化 下 不 太 可 能 出 现 y 的 良好 值 ， 则 可 能 需要 很 长 时 间 
来 偶然 获得 它 ， 并 且 获 得 所 需 信 号 的 配置 应 当 被 加 强 。 








20.10 有 向 生 成 网 络 


如 第 十 六 章 所 讨论 的 , 有 向 图 模型 构成 了 一 类 突出 的 图 模型 。 虽然 有 向 图 模型 在 
更 大 的 机 顺 学 习 社 群 中 非常 流行 ， 但 在 较 小 的 深度 学 习 社 群 中 ， 大 约 直 到 2013 FE 
们 都 掩盖 在 无 向 模型 (如 RBM) 的 光彩 之 下 。 

在 本 市 中 ， 我 们 回顾 一 些 传统 上 与 深度 学 习 社 群 相关 的 标准 有 向 图 模型 。 

我 们 已 经 描述 过 部 分 有 向 的 模型 一 一 深度 信念 网 络 。 我 们 还 描述 过 可 以 被 认为 
是 浅 度 有 回 生 成 模型 的 稀 玻 编码 模型 。 尽 管 在 样本 生成 和 密度 估计 方面 表现 不 佳 ， 
在 深度 学 习 的 背景 下 它们 通常 被 用 作 特征 学 习 避 。 我 们 接 下 来 描述 多 种 深度 完全 有 
向 的 模型 。 





20.10.1 sigmoid 信念 网 络 


sigmoid 信念 网 络 (Neal, 1990) 是 一 种 具有 特定 条 件 概 率 分 布 的 有 向 图 模型 的 简 
单 形 式 。 一 般 来 说 ,我 们 可 以 将 sigmoid 信念 网 络 视 为 具有 二 值 向 量 的 状态 s， 其 中 
状态 的 每 个 元 素 都 受 其 祖先 影响 : 
plsi) = (x W;is; 十 i) ; (20.70) 
j<i 


sigmoid 信念 网 络 最 常见 的 结构 是 被 分 为 许多 层 的 结构 ， 其 中 原始 采样 通过 一 系 
列 多 个 隐藏 层 进行 ， 然 后 最 终生 成 可 见 层 。 这 种 结构 与 深度 信念 网 络 非常 相似 ， 但 
它们 在 采样 过 程 开 始 时 的 单元 彼此 独立 ， 而 不 是 从 受 限 玻 尔 兹 曼 机 采样 。 这 种 结构 
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由 于 各 种 原因 而 令 人 感 兴趣 。 一 个 原因 是 该 结构 是 可 见 单元 上 概率 分 布 的 通用 近似 ， 
即 在 足够 深 的 情况 下 ， 可 以 任意 良好 地 近似 二 值 变 量 的 任何 概率 分 布 ( 即使 各 个 层 
的 宽度 受 限 于 可 见 层 的 维度 ) (Sutskever and Hinton, 2008)。 

虽然 生成 可 见 单 元 的 样本 在 sigmoid 信念 网 络 中 是 非常 高 效 的 ， 但 是 其 他 大 多 
数 操作 不 是 很 高 效 。 给 定 可 见 单元 ， 对 隐藏 单元 的 推断 是 难 解 的 。 因 为 变 分 下 界 涉 
及 对 包含 整个 层 的 团 求 期 望 ， 均 匀 场 推 关 也 是 难以 处 理 的。 这 个 问题 一 直 困 难 到 足 
以 限制 有 向 离散 网 络 的 普及 。 

在 sigmoid 信念 网 络 中 执行 推断 的 一 种 方法 是 构造 专用 于 sigmoid 信念 网 络 的 
不 同 下 界 (Saul et al., 1996)。 这 种 方法 只 适用 于 非常 小 的 网 络 。 另 一 种 方法 是 使 用 学 
成 推断 机 制 ， 如 第 19.5 节 中 描述 的 。Helmholtz 机 (Dayan et al., 1995; Dayan and 
Hinton, 1996) 结合 了 一 个 sigmoid 信念 网 络 与 一 个 预测 隐藏 单元 上 均匀 场 分 布 参数 
的 推断 网 络 。sigmoid 信念 网 络 的 现代 方法 (Gregor et al., 2014; Mnih and Gregor, 
2014) 仍然 使 用 这 种 推断 网 络 的 方法 。 因 为 潜 变 量 的 离散 本 质 ， 这 些 技术 仍然 是 困 
难 的 。 人 们 不 能 简单 地 通过 推断 网 络 的 输出 反 向 传播 ， 而 必须 使 用 相对 不 可 靠 的 机 
制 即 通过 离散 采样 过 程 进 行 反 向 传播 ( 如 第 20.9.1 节 所 述 )。 最 近 基 于 重要 采样 、 重 
JNA EY HEN (Bornschein and Bengio, 2015) 或 双向 Helmholtz 机 (Bornschein et al., 
2015) 的 方法 使 得 我 们 可 以 快速 训练 sigmoid 信念 网 络 ， 并 在 基准 任务 上 达到 最 好 的 
表现 。 

sigmoid 信念 网 络 的 一 种 特殊 情况 是 没有 潜 变 量 的 情况 。 在 这 种 情况 下 学 习 是 高 
效 的 ， 因 为 没有 必要 将 潜 变 量 边缘 化 到 似 然 之 外 。 一 系列 称 为 自 回归 网 络 的 模型 将 
这 个 完全 可 见 的 信念 网 络 泛 化 到 其 他 类 型 的 变量 〈 除 二 值 变 量 ) 和 其 他 结构 〈 除 对 
数 线性 关系 ) 的 条 件 分 布 。 自 回归 网 络 将 在 第 20.10.7 节 中 描述 。 




















20.10.2 ”可 微 生 成 器 网 络 


许多 生成 模型 基于 使 用 可 微 生成 器 网 络 ( generator network ) 的 想法 。 这 种 模 
型 使 用 可 微 函数 g(z; 0/9) 将 潜 变 量 z 的 样本 变换 为 样本 x 或 样本 x 上 的 分 布 ， 可 
微 函 数 通常 可 以 由 神经 网 络 表 示 。 这 类 模型 包括 将 生成 器 网 络 与 推断 网 络 配 对 的 变 
分 自 编码 器 、 将 生成 器 网 络 与 判别 器 网 络 配对 的 生成 式 对 抗 网 络 , 以 及 孤立 地 训练 生 
成 器 网 络 的 技术 。 

生成 器 网 络 本 质 上 仅 是 用 于 生成 样本 的 参数 化 计算 过 程 ， 其 中 的 体系 结构 提供 
了 从 中 采样 的 可 能 分 布 族 以 及 选择 这 些 族 内 分 布 的 参数 。 
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作为 示例 ,从 具有 均值 u 和 协 方差 D 的 正 态 分 布 绘制 样本 的 标准 过 程 是 将 来 自 
零 均 值 和 单位 协 方差 的 正 态 分 布 的 样本 z 馈送 到 非常 简单 的 生成 器 网 络 中 。 这 个 生 
成 器 网 络 只 包含 一 个 仿 射 层 : 





x= g(z) = u + Lz, (20.71) 
Hp LH XH Cholesky 分 解 给 出 。 

伪 随 机 数 发 生 器 也 可 以 使 用 简单 分 布 的 非 线 性 变换 。 例 如 ， 逆 变换 采样 (inverse 
transform sampling)(Devroye, 2013) 从 U(0,1) 中 采 一 个 标量 z, 并 且 对 标量 z 应 用 
非 线 性 变换 。 在 这 种 情况 下 ，g(z) 由 累积 分 布 函 数 F(z) = f^. p(v)dv 的 反 函 数 给 
出 。 如 果 我 们 能 够 指定 p(x), TE r 上 积分 ， 并 取 所 得 函数 的 反 函 数 ， 我 们 不 用 通过 
Blas J AEH p(x) 进行 采样 。 

为 了 从 更 复杂 的 分 布 (难以 直接 指定 、 难 以 积分 或 难以 求 所 得 积分 的 反 芳 数 ) 
中 生成 样本 ， 我 们 使 用 前 馈 网 络 来 表示 非 线性 函数 9 的 参数 族 ， 并 使 用 训练 数据 
来 推断 参数 以 选择 所 期 望 的 函数 。 

我 们 可 以 认为 9 提供 了 变量 的 非 线性 变化 ， 将 z 上 的 分 布 变换 成 x 上 想 要 的 分 
布 。 

回顾 式 (3.47) ， 对 于 可 求 反 函 数 的 、 可 微 的 、 连 续 的 g, 





p:( = pa(g(2))| ae e) (20.72) 
这 隐 含 地 对 x 施加 概率 分 布 : 
pz(g*(#)) 
Dy (x) = Taet(22)| (20.73) 


当然 ， 取 决 于 g 的 选择 ， 这 个 公式 可 能 难以 评估 ， 因 此 我 们 经 常 需要 使 用 间接 学 习 
g 的 方法 ， 而 不 是 直接 尝试 最 大 化 logp(z)。 

在 某 些 情况 下 ， 我们 使 用 g 来 定义 z 上 的 条 件 分 布 ， 而 不 是 使 用 9 直接 提供 x 
的 样本 。 例 如 , 我 们 可 以 使 用 一 个 生成 器 网 络 ， 其 最 后 一 层 由 sigmoid 输出 组 成 ， 可 
以 提供 Bernoulli 分 布 的 平均 参数 : 














p(x: = 1 | 2z) = g(2)i. (20.74) 
在 这 种 情况 下 ， 我 们 使 用 g 来 定义 p(x | z) 时 ， 我 们 通过 边缘 化 z 来 对 z 施加 分 布 : 
p(x) = Ep(s | z). (20.75) 
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两 种 方法 都 定义 了 一 个 分 布 py(z)， 并 允许 我 们 使 用 第 20.9 节 中 的 重 参数 化 技 
巧 来 训练 py 的 各 种 评估 准则 。 

表示 生成 器 网 络 的 两 种 不 同方 法 〈 发 出 条 件 分 布 的 参数 相对 直接 发 射 样品 ) Re 
有 互补 的 优 缺 点 。 当 生成 器 网 络 在 x 上 定义 条 件 分 布 时 ， 它 不 但 能 生成 连续 数据 ， 
也 能 生成 离散 数据 。 当 生成 器 网 络 直接 提供 采样 时 ， 它 只 能 产生 连续 的 数据 (我 们 
可 以 在 前 向 传播 中 引入 离散 化 ， 但 这 样 做 意味 着 模型 不 再 能 够 使 用 反 向 传播 进行 训 
练 )。 直 接 采 样 的 优点 是 ,我们 不 再 被 迫使 用 条 件 分 布 ( 可 以 容易 地 写 出 来 并 由 人 类 
设计 者 进行 代数 操作 的 形式 )。 

基于 可 微 生 成 器 网 络 的 方法 是 由 分 类 可 微 前 馈 网 络 中 梯度 下 降 的 成 功 应 用 而 推 
动 的 。 在 监督 学 习 的 背景 中 ， 基 于 梯度 训练 学 习 的 深度 前 馈 网 络 在 给 定 足 够 的 隐藏 
单元 和 足够 的 训练 数据 的 情况 下 ， 在 实践 中 似乎 能 保证 成 功 。 这 个 同样 的 方案 能 成 
功 转移 到 生成 式 建 模 上 吗 ? 

生成 式 建 模 似乎 比分 类 或 回归 更 困难 ， 因 为 学 习 过 程 需要 优化 难以 处 理 的 准则 。 
在 可 微 生 成 器 网 络 的 情况 中 ， 准 则 是 难以 处 理 的 ， 因 为 数据 不 指定 生成 器 网 络 的 输 
入 z 和 输出 z。 在 监督 学 习 的 情况 下 ， 输 入 z 和 输出 y 同时 给 出 ， 并 且 优化 过 程 只 
需 学 习 如 何 产生 指定 的 映射 。 在 生成 建 模 的 情况 下 ， 学 习 过 程 需要 确定 如 何以 有 用 
的 方式 排 布 z 空间， 以 及 额外 的 如 何 从 z 映射 到 a 

Dosovitskiy et al. (2015) 研究 了 一 个 简化 问题 ， 其 中 z 和 z 之 间 的 对 应 关系 已 
经 给 出 。 具 体 来 说 ， 训 练 数据 是 计算 机 泻 染 的 椅子 图 。 潜 变量 z 是 泻 染 引擎 的 参数 ， 
描述 了 椅子 模型 的 选择 、 椅 子 的 位 置 以 及 影响 图 像 泻 染 的 其 他 配置 细节 。 使 用 这 种 
合成 的 生成 数据 ， 卷 积 网 络 能 够 学 习 将 图 像 内 容 的 描述 z 映射 到 泻 染 图 像 的 近似 a. 
这 表明 当 现 代 可 微 生 成 器 网 络 具 有 足够 的 模型 容量 时 ， 足 以 成 为 良好 的 生成 模型 ， 
并 且 现 代 优化 算法 具有 拟 合 它们 的 能 力 。 困 难 在 于 当 每 个 z 的 z 的 值 不 是 固定 的 且 
在 每 次 训练 前 是 未 知 时 ， 如 何 训练 生成 器 网 络 。 

在 接 下 来 的 章节 中 ,我们 讨论 仅 给 出 z 的 训练 样本 ， 训 练 可 微 生 成 器 网 络 的 几 
种 方法 。 














20.10.3 ” 变 分 自 编码 器 


变 分 自 编码 器 (variational auto-encoder, VAE ) (Kingma, 2013; Rezende et al., 
2014) 是 一 个 使 用 学 好 的 近似 推断 的 有 向 模型 ， 可 以 纯粹 地 使 用 基于 梯度 的 方法 进行 
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训练。 

为 了 从 模型 生成 样本 ，VAE 首先 从 编码 分 布 psoaai( 中 采样 zo 然后 使 样本 通 
过 可 微 生 成 器 网 络 g( 区 。 最 后 ， 从 分 布 pucaa(2:9(2)) = Pmodei(@ | 中 采样 a. JA 
而 在 训练 期 间 ， 近 似 推断 网 络 (或 编码 器 q(z | 2) 用 于 获得 2, 而 pasaa(z | 2) JU 
被 视 为 解码 器 网 络 。 

变 分 自 编码 器 背后 的 关键 思想 是 ， 它 们 可 以 通过 最 大 化 与 数据 点 = 相关 联 的 变 
AY Ft Lla) 来 训练 




















£(q) = E essai) log Pmodei (2; z) EE H(q(z | x)) (20.76) 
= Ez.4(42) log Pmodai (æ | 2) — Dri (q(z | £) || Pmodei(Z)) (20.77) 
< log pmodal (2). (20.78) 


TEX (20.76) 中 ， 我 们 将 第 一 项 视 为 潜 变量 的 近似 后 验 下 可 见 和 隐藏 变量 的 联合 对 数 
似 然 性 (正如 EM 一 样 ， 不 同 的 是 我 们 使 用 近似 而 不 是 精确 后 验 )。 第 二 项 则 可 视 
FTW AA. Sq 被 选择 为 高 斯 分 布 ， 其 中 噪声 被 添加 到 预测 平均 值 时 ， 最 大 
化 该 炉 项 促使 该 噪声 标准 偏差 的 增加 。 更 一 般 地 ， 这 个 炳 项 敦 励 变 分 后 验 将 高 概率 
质量 置 于 可 能 已 经 产生 z 的 许多 z 值 上 ， 而 不 是 坊 缩 到 单个 估计 最 可 能 值 的 点 。 在 
式 (20.77) 中 ， 我 们 将 第 一 项 视 为 在 其 他 自 编 码 器 中 出 现 的 重 构 对 数 似 然 。 第 二 项 试 
图 使 近似 后 验 分 布 qlz | ac) 和 模型 先 验 pmoael( 彼此 接近 。 

变 分 推 新 和 学 习 的 传统 方法 是 通过 优化 算法 推断 g， 通 常 是 迭代 不 动 点 方程 
C58 19.4 节 ) 这 些 方法 是 缓慢 的 , 并 且 通 常 需 要 以 闭 解 形式 计算 Ezg log pmoael(z £) o 
变 分 自 编码 器 背后 的 主要 思想 是 训练 产生 4 参数 的 参数 编码 器 《有 时 也 称 为 推断 网 
络 或 识别 模型 )。 只 要 z 是 连续 变量 ， 我 们 就 可 以 通过 从 q(z | x) = a(z; f(x;9)) 中 
采样 z 的 样本 反 向 传播 ， 以 获得 相对 于 9 的 梯度 。 学 习 则 仅 包括 相对 于 编码 器 和 解 
码 带 的 参数 最 大 化 C。Z 中 的 所 有 期 望都 可 以 通过 蒙特 卡 罗 采 样 来 近似 。 

变 分 自 编码 噩 方法 是 优雅 的 ,理论 上 令 人 人 愉快 的 , 并 且 易 于 实现 。 它 也 获得 了 出 
色 的 结果 , 是 生成 式 建 模 中 的 最 先进 方法 之 一 。 它 的 主要 缺点 是 从 在 图 像 上 训练 的 变 
分 自 编 码 器 中 采样 的 样本 往往 有 些 模糊 。 这 种 现象 的 原因 尚 不 清楚 。 一 种 可 能 性 是 
模糊 性 是 最 大 似 然 的 加 有 效应 ， 因 为 我 们 需要 最 小 化 Dr(paata||pmoae)。 如 图 3.6 所 
Zh, 这 意味 着 模型 将 为 训练 集中 出 现 的 点 分 配 高 的 概率 , 但 也 可 能 为 其 他 点 分 配 高 的 
概率 。 还 有 其 他 原因 可 以 导致 模糊 图 像 。 模型 选择 将 概率 质量 置 于 模糊 图 像 而 不 是 空 
间 的 其 他 部 分 的 部 分 原因 是 实际 使 用 的 变 分 自 编码 器 通常 在 pmoadel(z; g(2)) 使 用 高 
斯 分 布 。 最 大 化 这 种 分 布 似 然 性 的 下 界 与 训练 具有 均 方 误差 的 传统 自 编 码 如 类似， 
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这 意味 着 它 倾向 于 忽略 由 少量 像素 表示 的 特征 或 其 中 亮度 变化 微小 的 像素 。 如 Theis 
et al. (2015) 和 Huszar (2015) 指出 的 ， 该 问题 不 是 VAE 特有 的 ， 而 是 与 优化 对 数 
似 然 或 Di (paatal|pmoaa) 的 生成 模型 共享 的 。 现 代 VAE 模型 男 一 个 麻烦 的 问题 是 ， 
它们 倾向 于 仅 使 用 z 维度 中 的 小 子 集 ， 就 像 编 码 器 不 能 够 将 具有 足够 局 部 方向 的 输 
人 空间 变换 到 边缘 分 布 与 分 解 前 匹配 的 空间 。 

VAE 框架 可 以 直接 扩展 到 大 范围 的 模型 架构 。 相 比 玻 尔 效 曼 机 ， 这 是 关键 的 优 
势 ， 因 为 玻 尔 兹 曼 机 需要 非常 仔细 地 设计 模型 来 保持 易 解 性 。VAE 可 以 与 广泛 的 可 
微 算 子 族 一 起 良好 工作 。 一 个 特别 复杂 的 VAE 是 深度 循环 注意 写 者 (DRAW) 模型 
(Gregor et al., 2015)。DRAW 使 用 一 个 循环 编码 器 和 循环 解码 器 并 结合 注意 力 机 制 。 
DRAW 模型 的 生成 过 程 包括 顺序 访问 不 同 的 小 图 像 块 并 绘制 这 些 点 处 的 像素 值 。 
我 们 还 可 以 通过 在 VAE 框架 内 使 用 循环 编码 器 和 解码 器 来 定义 变 分 RNN (Chung 
et al., 2015b) 来 扩展 VAE 以 生成 序列 。 从 传统 RNN 生成 样本 仅 在 输出 空间 涉及 
非 确定 性 操作 。 而 变 分 RNN 还 具有 由 VAE 潜 变 量 捕获 的 潜在 更 抽象 层 的 随机 变化 
性 。 



































VAE 框架 已 不 仅仅 扩展 到 传统 的 变 分 下 界 , 还 有 重要 加 权 自 编码 器 (importance- 
weighted autoencoder)(Burda et al., 2015) 的 目标 : 


k s 
1 Pmodel (T, 2) 
Ly, (wy q) = E) n ZE) wq (zE log 7 
E q(z|x) k q(z? | a) 











(20.79) 








i=1 


这 个 新 的 目标 在 = 1 时 等 同 于 传统 的 下 界 C。 然 而 ， 它 也 可 以 被 解释 为 基于 提议 
分 布 q(z | z) 中 z 的 重要 采样 而 形成 的 真实 log puoae (2) 估计 。 重要 加 权 自 编码 右 目 
标 也 是 log Ppmoaa (£) WTE, HME k 增加 而 变 得 更 紧 。 

变 分 自 编码 器 与 MP-DBM 和 其 他 涉及 通过 近似 推断 图 的 反 向 传播 方法 有 一 些 
有 趣 的 联系 (Goodfellow et al., 2013d; Stoyanov et al., 2011; Brakel et al., 2013). 
这 些 以 前 的 方法 需要 诸如 均匀 场 不 动 点 方程 的 推断 过 程 来 提供 计算 图 。 变 分 自 编码 
器 被 定义 为 任意 计算 图 ， 这 使 得 它 能 适用 于 更 广泛 的 概率 模型 族 ， 因 为 它 不 需要 将 
模型 的 选择 限制 到 具有 易 处 理 的 均匀 场 不 动 点 方程 的 那些 模型 。 变 分 自 编码 器 还 具 
有 增加 模型 对 数 似 然 边界 的 优点 ， 而 MP-DBM 和 相关 模型 的 准则 更 具 启 发 性 ， 并 
且 除 了 使 近似 推断 的 结果 准确 外 很 少 有 概率 的 解释 。 变 分 自 编码 器 的 一 个 缺点 是 它 
仅 针对 一 个 问题 学 习 推断 网 络 ， 即 给 定 m 推断 z。 较 老 的 方法 能 够 在 给 定 任 何其 他 
变量 子 集 的 情况 下 对 任何 变量 子 集 执行 近似 推断 ， 因 为 均匀 场 不 动 点 方程 指定 如 何 
在 所 有 这 些 不 同 问题 的 计算 图 之 间 共 享 参数 。 
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变 分 自 编码 器 的 一 个 非常 好 的 特性 是 ， 同 时 训练 参数 编码 器 与 生成 器 网 络 的 组 
合 迫 使 模型 学 习 一 个 编码 器 可 以 捕获 的 可 预测 的 坐标 系 。 这 使 得 它 成 为 一 个 优秀 
的 流 形 学 习 算 法 。 图 20.6 展 示 了 由 变 分 自 编码 器 学 到 的 低 维 流 形 的 例子 。 图 中 所 示 
的 情况 之 一 ， 算 法 发 现 了 存在 于 面部 图 像 中 两 个 独立 的 变化 因素 : 旋转 角 和 情绪 表 


达 。 
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20.6: 由 变 分 自 编码 器 学 习 的 高 维 流 形 在 2 维 坐标 系 中 的 示例 (Kingma and Welling, 2014a). 
我 们 可 以 在 纸 上 直 接 绘 制 两 个 可 视 化 的 维度 ， 因 此 可 以 使 用 2 维 潜在 编码 训练 模型 来 了 解 模型 的 
工作 原理 C 即使 我 们 认为 数据 流 形 的 固有 维度 要 高 得 多 )。 图 中 所 示 的 图 像 不 是 来 自 训 练 集 的 样本 ， 
而 是 仅仅 通过 改变 2 维 “ 编 码 ”z， 由 模型 p(x | z) 实际 生成 的 图 像 m ( 每 个 图 像 对 应 于 “编码 ”z 
位 于 2 维 均匀 网 格 的 不 同 选 择 )。( 左 ) Frey 人 脸 流 形 的 2 维 映 射 。 其 中 一 个 维度 (水平 ) 已 发 现 
大 致 对 应 于 面部 的 旋转 ， 而 另 一 个 〈 垂 直 ) 对 应 于 情绪 表达 。( 右 ) MNIST 流 形 的 2 维 映射 。 






































20.10.4 生成 式 对 抗 网 络 


生成 式 对 抗 网 络 ( generative adversarial network, GAN ) (Goodfellow et al., 
2014c) 是 基于 可 微 生 成 器 网 络 的 另 一 种 生成 式 建 模 方法 。 

生成 式 对 抗 网 络 基 于 博弈 论 场景 ， 其 中 生成 器 网 络 必须 与 对 手 竞争 。 生 成 器 网 
络 直接 产后 样本 z = g(z; 9(9))。 其 对 手 ， 判 别 器 网 络 (discriminator network )， 试 
图 区 分 从 训练 数据 抽取 的 样本 和 从 生成 器 抽取 的 样本 。 判 别 器 发 出 由 d(x; 9 中) 给 出 
的 概率 值 ， 指 示 m 是 真实 训练 样本 而 不 是 从 模型 抽取 的 伪造 样本 的 概率 。 
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形式 化 表示 生成 式 对 抗 网 络 中 学 习 的 最 简单 方式 是 零 和 游戏 ， 其 中 函数 
vO), 0) 确定 判别 器 的 收益 。 生成 器 接收 (0,0) 作为 它 自己 的 收益 。 
在 学 习 期 间 ， 每 个 玩家 尝试 最 大 化 自己 的 收益 ， 因 此 收敛 在 








g' = arg min max v(g, d). (20.80) 
9 





v 的 默认 选择 是 




















009 0) = E, logd(z) + Ez. log(1 — d(z)). (20.81) 


这 驱使 判别 器 试图 学 习 将 样品 正确 地 分 类 为 真 的 或 伪造 的 。 同 时 ， 生 成 器 试图 欺骗 
分 类 器 以 让 其 相信 样本 是 真实 的 。 在 收敛 时 , 生成 器 的 样本 与 实际 数据 不 可 区 分 ， 并 
且 判 别 器 处 处 都 输出 =。 然后 就 可 以 丢弃 判别 器 。 

设计 GAN 的 主要 动机 是 学 习 过 程 既 不 需要 近似 推断 也 不 需要 配 分 函数 梯度 的 
近似 。 当 maxav(g, d) 在 09 中 是 凸 的 ( 例如， 在 概率 密度 函数 的 空间 中 直接 执行 
优化 的 情况 ) 时 ， 该 过 程 保证 收敛 并 且 是 渐 近 一 致 的 。 

不 幸 的 是 , 在 实践 中 由 神经 网 络 表示 的 g 和 dq 以 及 maxav(g,d) 不 凸 时 , GAN 中 
的 学 习 可 能 是 困难 的 。Goodfellow (2014) 认为 不 收敛 可 能 会 引起 GAN 的 欠 拟 合 问 
题 。 一 般 来 说 ， 同 时 对 两 个 玩家 的 成 本 梯度 下 降 不 能 保证 达到 平衡 。 例 如 ， 考 虑 价 
值 函 数 v(a,b) = ab， 其 中 一 个 玩家 控制 a 并 产生 成 本 op， 而 另 一 玩家 控制 5 并 接 
收成 本 -abg。 如 果 我 们 将 每 个 玩家 建 模 为 无 穷 小 的 梯度 步 又 ， 每 个 玩家 以 另 一 个 玩 
家 为 代价 降低 自己 的 成 本 ， 则 和 改进 入 稳定 的 圆 形 轨迹 ， 而 不 是 到 达 原 点 处 的 平 
衡 点 。 注 意 ， 极 小 极 大 化 游戏 的 平衡 不 是 v 的 局 部 最 小 值 。 相 反 ， 它 们 是 同时 最 小 
化 的 两 个 玩家 成 本 的 点 。 这 意味 着 它们 是 v 的 鞍点 ， 相 对 于 第 一 个 玩家 的 参数 是 局 
部 最 小 值 ， 而 相对 于 第 二 个 玩家 的 参数 是 局 部 最 大 值 。 两 个 玩家 可 以 永远 轮流 增加 
然后 减少 v， 而 不 是 正好 停 在 玩家 没有 能 力 降低 其 成 本 的 鞍点 。 目 前 不 知道 这 种 不 收 
敛 的 问题 会 在 多 大 程度 上 影响 GAN, 

Goodfellow (2014) 确定 了 另 一 种 替代 的 形式 化 收益 公式 ， 其 中 博弈 不 再 是 零 和 ， 
每 当 判 别 器 最 优 时 ， 具 有 与 最 大 似 然 学 习 相 同 的 预期 梯度 。 因 为 最 大 似 然 训练 收敛 ， 
这 种 GAN 博弈 的 重 述 在 给 定 足 够 的 样本 时 也 应 该 收敛 。 不 幸 的 是 ， 这 种 替代 的 形 
式 化 似乎 并 没有 提高 实践 中 的 收敛 ， 可 能 是 由 于 判别 器 的 次 优 性 或 围绕 期 望 梯度 的 
高 方差 。 

在 真实 实验 中 ，GAN 博弈 的 最 佳 表现 形式 既 不 是 零 和 也 不 等 价 于 最 大 似 然 ， 而 
是 Goodfellow et al. (2014c) 引入 的 带 有 启发 式 动 机 的 不 同形 式 化 。 在 这 种 最 佳 性 能 
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的 形式 中 ， 生 成 器 旨 在 增加 判别 器 发 生 错 误 的 对 数 概率 ， 而 不 是 旨 在 降低 判别 需 进 
行 正确 预测 的 对 数 概率 。 这 种 重 述 仅仅 是 观察 的 结果 ， 即 使 在 判别 器 确信 地 拒绝 所 
有 生成 器 样本 的 情况 下 ， 它 也 能 导致 生成 器 代价 函数 的 导数 相对 于 判别 器 的 对 数 保 
持 很 大 。 

稳定 GAN 学 习 仍 然 是 一 个 开放 的 问题 。 幸 运 的 是 ， 当 仔细 选择 模型 架构 和 
超 参 数 时 ，GAN 学 习 效 果 很 好 。Radford et al. (2015) 设计 了 一 个 深度 卷 积 GAN 
(DCGAN), 在 图 像 合成 的 任务 上 表现 非常 好 ,并 表明 其 潜在 的 表示 空间 能 捕获 到 变 
化 的 重要 因素 ， 如 图 15.9 所 示 。 图 20.7 展 示 了 DCGAN 生成 器 生成 的 图 像 示 例 。 








图 20.7: 在 LSUN 数据 集 上 训练 后 ， 由 GAN 生成 的 图 像 。( 左 ) 由 DCGAN 模型 生成 的 卧室 图 
像 , 经 Radford et al. (2015) 许可 转载 。( 右 ) 由 LAPGAN 模型 生成 的 教堂 图 像 , 经 Denton et al. 
(2015) 许可 转载 。 





GAN 学 习 问 题 也 可 以 通过 将 生成 过 程 分 成 许多 级 别 的 细节 来 简化 。 我 们 可 以 训 
练 有 条 件 的 GAN (Mirza and Osindero, 2014) ， 并 学 习 从 分 布 p(z | y) 中 采样 ， 而 不 
是 简单 地 从 边缘 分 布 p(z) 中 采样 。Denton et al. (2015) 表明 一 系列 的 条 件 GAN 可 
以 被 训练 为 首先 生成 非常 低 分 辨 率 的 图 像 ， 然 后 增 量 地 向 图 像 添 加 细节 。 由 于 使 用 
拉 普 拉 斯 金字 塔 来 生成 包含 不 同 细节 水 平 的 图 像 ， 这 种 技术 被 称 为 LAPGAN 模型 。 
LAPGAN 生成 器 不 仅 能 够 欺骗 判别 器 网 络 ， 而 且 能 够 欺骗 人 类 观察 者 ， 实 验 主体 将 
高 达 40% 的 网 络 输出 识别 为 真实 数据 。 请 看 图 20.7 中 LAPGAN 生成 器 生成 的 图 像 
示例 。 

GAN 训练 过 程 中 一 个 不 寻常 的 能 力 是 它 可 以 拟 合 向 训练 点 分 配 零 概率 的 概率 
分 布 。 生 成 器 网 络 学 习 跟 踪 其 点 在 某 种 程度 上 类 似 于 训练 点 的 流 形 ， 而 不 是 最 大 化 
特定 点 的 对 数 概率 。 有 点 矛盾 的 是 ， 这 意味 着 模型 可 以 将 负 无 穷 大 的 对 数 似 然 分 配 


ww ai bbt. com rna Bag d d 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
20.10 有 向 生成 网 络 599 


给 测试 集 ， 同 时 仍然 表示 人 类 观察 者 判断 为 能 捕获 生成 任务 本 质 的 流 形 。 这 不 是 明 
显 的 优点 或 缺点 ， 并 且 只 要 向 生成 器 网 络 最 后 一 层 所 有 生成 的 值 添加 高 斯 噪声 ， 就 
可 以 保证 生成 器 网 络 向 所 有 点 分 配 非 零 概 率 。 以 这 种 方式 添加 高 斯 噪声 的 生成 器 网 
络 从 相同 分 布 的 采样 ， 即 使 用 生成 器 网 络 参 数 化 条 件 高 斯 分 布 的 均值 所 获得 的 分 布 。 

Dropout 似乎 在 判别 器 网 络 中 很 重要 。 特 别 地 ,在 计算 生成 器 网 络 的 梯度 时 , 单 
元 应 当 被 随机 地 丢弃 。 使 用 权重 除 以 二 的 确定 性 版 本 的 判别 需 的 梯度 似乎 不 是 那么 
有 效 。 同 样 ， 从 不 使 用 Dropout 似乎 会 产生 不 良 的 结果 。 

虽然 GAN 框架 被 设计 为 用 于 可 微 生 成 需 网 络 , 但 是 类 似 的 原理 可 以 用 于 训练 其 
他 类 型 的 模型 。 例 如 , 自 监督 提升 ( self-supervised boosting) 可 以 用 于 训练 RBM Æ 
JN LAF Sin 8 [81H lt (Welling et al., 2002). 




















20.10.5 ”生成 矩 匹 配 网 络 


生成 矩 匹 配 网 络 〈generative moment matching network ) (Li et al., 2015; Dzi- 
ugaite et al., 2015) 是 另 一 种 基于 可 微 生 成 器 网 络 的 生成 模型 。 与 VAE 和 GAN 不 
同 ， 它 们 不 需要 将 生成 器 网 络 与 任何 其 他 网 络 配对 ， 如 不 需要 与 用 于 VAE 的 推断 网 
络 配对 ， 也 不 需要 与 GAN 的 判别 器 网 络 。 

生成 矩 匹 配 网 络 使 用 称 为 FEE BE (moment matching ) 的 技术 训练 。 和 矩 匹 配 背 
后 的 基本 思想 是 以 如 下 的 方式 训练 生成 器 一 一 令 模 型 生成 的 样本 的 许多 统计 量 尽 可 
能 与 训练 集中 的 样本 相似 。 在 此 情景 下 ， 德 (moment ) 是 对 随机 变量 不 同 窜 的 期 
望 。 例 如 ,第 一 矩 是 均值 ， 第 二 矩 是 平方 值 的 均值 ， 以 此 类 推 。 多 维 情况 下 ， 随 机 向 
量 的 每 个 元 素 可 以 被 升 高 到 不 同 的 震 ， 因 此 使 得 矩 可 以 是 任意 数量 的 形式 





























ELT sae (20.82) 
其 中 n= [na .md 是 一 个 非 负 整数 的 向 量 。 

在 第 一 次 检查 时 ， 这 种 方法 似乎 在 计算 上 是 不 可 行 的 。 例 如 ， 如 果 我 们 想 匹 配 
形式 为 vv; 的 所 有 和 矩 ， 那 么 我 们 需要 最 小 化 在 z 的 维度 上 是 二 次 的 多 个 值 之 间 的 
差 。 此 外 ， 甚 至 匹配 所 有 第 一 和 第 二 矩 将 仅 足 以 拟 合 多 变量 高 斯 分 布 ， 其 仅 捕 获 值 
之 间 的 线性 关系 。 我 们 使 用 神经 网 络 的 野心 是 捕获 复杂 的 非 线 性 关系 ， 这 将 需要 更 
多 的 矩 。GAN 通过 使 用 动态 更 新 的 判别 器 避免 了 穷 举 所 有 和 矩 的 问题 ， 该 判别 器 自动 
将 其 注意 力 集中 在 生成 器 网 络 最 不 匹配 的 统计 量 上 。 
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相反 ， 我 们 可 以 通过 最 小 化 一 个 被 称 为 最 大 平均 偏差 (maximum mean dis- 
crepancy, MMD ) (Schólkopf and Smola, 2002; Gretton et al., 2012) 的 代价 函数 来 
VILE AB VU CPZ AAUP RAGE TRUE PRICE SCPE S HIER, FETC BR 
维 空间 中 测量 第 一 和 矩 的 误差 ， 使 得 对 无 限 维 向 量 的 计算 变 得 可 行 。 当 且 仅 当 所 比较 
的 两 个 分 布 相 等 时 ，MMD 代价 为 零 。 

从 可 视 化 方面 看 ,来 自生 成 矩 匹配 网 络 的 样本 有 点 令 人 失望 。 和 幸运 的 是 ， 它 们 
可 以 通过 将 生成 器 网 络 与 自 编码 器 组 合 来 改进 。 首 先 ， 训 练 自 编码 器 以 重 构 训 练 集 。 
接 下 来 ， 自 编码 带 的 编码 器 用 于 将 整个 训练 集 转换 到 编码 空间 。 然 后 训练 生成 器 网 
络 以 生成 编码 样本 ， 这 些 编码 样本 可 以 经 解码 器 映 射 到 视觉 上 令 人 满意 的 样本 。 

与 GAN 不 同 ， 代 价 函 数 仅 关于 一 批 同时 来 自 训练 集 和 生成 器 网 络 的 实例 定义 。 
我 们 不 可 能 将 训练 更 新 作为 一 个 训练 样本 或 仅 来 自生 成 器 网 络 的 一 个 样本 的 函数 。 
这 是 因为 必须 将 矩 计算 为 许多 样本 的 经 验 平 均值 。 当 批量 大 小 太 小 时 ，MMD 可 能 
低估 采样 分 布 的 真实 变化 量 。 有 限 的 批量 大 小 都 不 足以 大 到 完全 消除 这 个 问题 ， 但 
是 更 大 的 批量 大 小 减少 了 低估 的 量 。 当 批量 大 小 太 大 时 ， 训 练 过 程 就 会 慢 得 不 可 行 ， 
因为 计算 单个 小 梯度 步 长 必须 一 下 子 处 理 许多 样本 。 


与 GAN 一 样 , 即使 生成 器 网 络 为 训练 点 分 配 零 概率 , 仍 可 以 使 用 MMD 训练 生 
成 融 网 络 。 


20.10.6 — STR ^E X o] 2 


当 生 成 图 像 时 ， 将 卷 积 结构 的 引入 生成 器 网 络 通常 是 有 用 的 ( 见 Goodfellow 
et al. (2014c) 或 Dosovitskiy et al. (2015) WHIT). 为 此 ,我 们 使 用 卷 积 算 子 的 “ 转 
E, 如 第 9.5 节 所 述 。 这 种 方法 通常 能 产生 更 逼真 的 图 像 , 并 且 比 不 使 用 参数 共享 的 
全 连接 层 使 用 更 少 的 参数 。 

用 于 识别 任务 的 卷 积 网 络 具 有 从 图 像 到 网 络 项 部 的 某 些 概括 层 (通常 是 类 标签 ) 
的 信息 流 。 当 该 图 像 通过 网 络 向 上 流动 时 ， 随 着 图 像 的 表示 变 得 对 于 有 害 变 换 保 持 
AME, 信息 也 被 丢弃 。 在 生成 器 网 络 中 ,情况 恰恰 相反 。 要 生成 图 像 的 表示 通过 网 络 
传播 时 必须 添加 丰富 的 详细 信息 ， 最 后 产生 图 像 的 最 终 表 示 ， 这 个 最 终 表示 当然 是 
带 有 所 有 细节 的 精细 图 像 本 身 (具有 对 象 位 置 、 姿 势 、 纹 理 以 及 明暗 )。 在 卷 积 识别 
网 络 中 丢弃 信息 的 主要 机 制 是 池 化 层 。 而 生成 器 网 络 似乎 需要 添加 信息 。 由 于 大 多 
数 池 化 函数 不 可 逆 ， 我 们 不 能 将 池 化 层 求 逆 后 放 入 生成 器 网 络 。 更 简单 的 操作 是 仅 
仪 增加 表示 的 空间 大 小 。 似 乎 可 接受 的 方法 是 使 用 Dosovitskiy et al. (2015) 引入 的 
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“去 池 化 "。 该 层 对 应 于 某 些 简化 条 件 下 最 大 池 化 的 逆 操作 。 首 先 ， 最 大 池 化 操作 的 
步 幅 被 约束 为 等 于 池 化 区 域 的 宽度 。 其 次 ， 每 个 池 化 区 域内 的 最 大 输入 被 假定 为 左 
上 和 角 的 输入 。 最 后 ， 假 设 每 个 池 化 区 域内 所 有 非 最 大 的 输入 为 零 。 这 些 是 非常 强 和 
不 现实 的 假设 ， 但 它们 人 允许 我 们 对 最 大 池 化 算 子 求 着。 逆 去 池 化 的 操作 分 配 一 个 零 
张 量 ， 然 后 将 每 个 值 从 输入 的 空间 坐标 i 复制 到 输出 的 空间 坐标 i x ko RAE k 定 
义 池 化 区 域 的 大 小 。 即 使 驱动 去 池 化 算 子 定义 的 假设 是 不 现实 的 ， 后 续 层 也 能 够 学 
习 补 途 其 不 寻常 的 和 输出， 所 以 由 整体 模型 生成 的 样本 在 视觉 上 令 人 满意 。 


20.10.7 ” 自 回 归 网 络 


自 回归 网 络 是 没有 洪 在 随机 变量 的 有 向 概率 模型 。 这 些 模型 中 的 条 件 概率 分 布 
由 神经 网 络 表示 (有 时 是 极 简单 的 神经 网 络 ， 例 如 逻辑 回归 )。 这 些 模型 的 图 结构 
是 完全 图 。 它 们 可 以 通过 概率 的 链 式 法 则 分 解 观察 变量 上 的 联合 概率 ， 从 而 获得 形 
如 P(za | za ,2Z1) 条 件 概率 的 乘积 。 这 样 的 模型 被 称 为 完全 可 见 的 贝 叶 斯 网 
络 ( fully-visible Bayes networks, FVBN )， 并 成 功 地 以 许多 形式 使 用 ， 首 先是 对 每 
个 条 件 分 布 逻 辑 回 归 (Frey, 1998) ， 然 后 是 带 有 隐藏 单元 的 神经 网 络 (Bengio and 
Bengio, 2000b; Larochelle and Murray, 2011)。 在 某 些 形式 的 自 回归 网 络 中 ,例如 在 
第 20.10.10 节 中 描述 的 NADE (Larochelle and Murray, 2011), 我 们 可 以 引入 参数 共 
享 的 一 种 形式 ， 它 能 带 来 统计 优点 ( 较 少 的 唯一 参数 ) 和 计算 优势 ( 较 少 计算 量 )。 
这 是 深度 学 习 中 反复 出 现 的 主题 一 一 特征 重用 的 男 一 个 实例 。 





20.10.8 ”线性 自 回 归 网 络 


自 回归 网 络 的 最 简单 形式 是 没有 隐藏 单元 、 没 有 参数 或 特征 共享 的 形式 。 每 个 
P(x; | xi y,...,21) 被 参数 化 为 线性 模型 ( 对 于 实 值 数据 的 线性 回归 ， 对 于 二 值 数据 
的 逻辑 回归 ， 对 于 离散 数据 的 softmax 回 归 )。 这 个 模型 由 Frey (1998) 51A, 4A d 
个 变量 要 建 模 时 ， 该 模型 有 O(d2) 个 参数 。 如 图 20.8 所 示 。 

如 果 变 量 是 连续 的 ， 线 性 自 回 归 网 络 只 是 表示 多 元 高 斯 分 布 的 另 一 种 方式 ， 只 
能 捕获 观察 变量 之 间 线 性 的 成 对 相互 作用 。 

线性 自 回归 网 络 本 质 上 是 线性 分 类 方法 在 生成 式 建 模 上 的 推广 。 因 此 ， 它 们 有 具 
有 与 线性 分 类 器 相同 的 优 缺 点 。 像 线性 分 类 器 一 样 ,它们 可 以 用 凸 损失 函数 训练 , 并 
且 有 时 允许 闭 解 形 式 ( 如 在 高 斯 情况 下 )。 像 线性 分 类 器 一 样 ， 模 型 本 身 不 提供 增加 
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图 20.8: 完全 可 见 的 信念 网 络 从 前 i 一 1 个 变量 预测 第 i 个 变量 。( 上 ) FVBN 的 有 向 图 模型 。( 下 ) 
对 数 FVBN 相应 的 计算 图 ， 其 中 每 个 预测 由 线性 预测 器 作出 。 























其 容量 的 方法 ， 因 此 必须 使 用 其 他 技术 《如 输入 的 基 扩 展 或 核 技巧 ) 来 提高 容量 。 


20.10.9 ”神经 自 回 归 网 络 











神经 自 回归 网 络 (Bengio and Bengio, 2000a,b) 具有 与 逻辑 自 回归 网 络 相同 的 从 
左 到 右 的 图 模型 ( 图 20.8 )， 但 在 该 图 模型 结构 内 采用 不 同 的 条 件 分 布 参数 。 新 的 参 
数 化 更 强大 ， 它 可 以 根据 需要 随意 增加 容量 ， 并 人 允许 近似 任意 联合 分 布 。 新 的 参数 
化 还 可 以 引入 深度 学 习 中 和 常见 的 参数 共享 和 特征 共享 原理 来 改进 泛 化 能 力 。 设 计 这 
些 模 型 的 动机 是 避免 传统 表格 图 模型 引起 的 维 数 灾难 ， 并 与 图 20.8 共 享 相同 的 结构 。 
在 表格 离散 概率 模型 中 ， 每 个 条 件 分 布 由 概率 表 表 示 ， 其 中 所 涉及 的 变量 的 每 个 可 
能 配置 都 具有 一 个 条 目 和 一 个 参数 。 通 过 使 用 神经 网 络 ， 可 以 获得 两 个 优点 : 





1. 通过 具有 (i 一 1) x 个 输入 和 个 输出 的 神经 网 络 ( 如果 变 量 是 离散 的 并 有 
个 值 ， 使 用 one-hot 编 码 ) 参数 化 每 个 P(x; | xia... 7x1)， 让 我 们 不 需要 指数 
量 级 参数 ( 和 样本 ) 的 情况 下 就 能 估计 条 件 概率 ,然而 仍然 能 够 捕获 随机 变量 
之 间 的 高 阶 依赖 性 。 

2. 不 需要 对 预测 每 个 z; 使 用 不 同 的 神经 网 络 , 如 图 20.9 所 示 的 从 左 到 右 连 接 , fü. 
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许 将 所 有 神经 网 络 合并 成 一 个 。 等 价 地 , 它 意 味 着 为 预测 v. 所 计算 的 隐藏 层 特 
征 可 以 重新 用 于 预测 vipe (k > 0)。 因 此 隐藏 单元 被 组 织 成 第 i 组 中 的 所 有 单 
元 仪 依赖 于 输入 值 mu... m; 的 特定 的 组 。 用 于 计算 这 些 隐藏 单元 的 参数 被 联 
合 优化 以 改进 对 序列 中 所 有 变量 的 预测 。 这 是 重用 原理 的 一 个 实例 ， 这 是 从 循 
环 和 卷 积 网 络 架构 到 多 任务 和 迁移 学 习 的 场景 中 反复 出 现 的 深度 学 习 原 理 。 








图 20.9: 神经 自 回 归 网 络 从 前 i 一 1 个 变量 预测 第 i 个 变量 ri, 但 经 参数 化 后 ， 作 为 zl, .… ,zi K 
数 的 特征 ( 表示 为 hi 的 隐藏 单元 的 组 ) 可 以 在 预测 所 有 后 续 变 量 mici mies, ... ca 时 重用 。 





























如 在 第 6.2.2.1 节 中 讨论 的 ， 使 神经 网 络 的 输出 预测 z; 条件 分 布 的 参数 ， 每 
个 P(zi | zi_1,.…,z1) 就 可 以 表示 一 个 条 件 分 布 。 虽 然 原 始 神经 自 回归 网 络 最 初 
是 在 纯粹 离散 多 变量 数据 ( 带 有 sigmoid 输出 的 Bernoulli 变量 或 softmax 输出 
的 Multinoulli 变量 ) 的 背景 下 评估 ， 但 我 们 可 以 自然 地 将 这 样 的 模型 扩展 到 连续 变 
量 或 同时 涉及 离散 和 连续 变量 的 联合 分 布 。 


20.10.10 NADE 


神经 自 回归 密度 估计 器 ( neural auto-regressive density estimator, NADE ) 是 最 
近 非 常 成 功 的 神经 自 回归 网 络 的 一 种 形式 (Larochelle and Murray, 2011). 5j Bengio 
and Bengio (2000b) 的 原始 神经 自 回 归 网 络 中 的 连接 相同 , 但 NADE 引入 了 附加 
的 参数 共享 方案 ， 如 图 20.10 所 示 。 不 同 组 7 的 隐藏 单元 的 参数 是 共享 的 。 


从 第 i 个 输入 zi 到 第 j 组 隐藏 单元 的 第 k 个 元 素 hy? (j zd) 的 权重 W, pi 是 
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组 内 共享 的 : 
Wi eds (20.83) 


ER j <i 的 权重 为 零 。 





图 20.10: 神经 自 回 归 密 度 估计 器 (NADE ) 的 示意 图 。 隐藏 单元 被 组 织 在 组 hO 中 ， 使 得 只 有 输 
A a,...,0) 参与 计算 RO 和 预测 P(x; | zj;_1,...,z1) OFF j >i). NADE 使 用 特定 的 权重 共 
享 模式 区 别 于 早期 的 神经 自 回 归 网 络 : W pi = ;被 共享 于 所 有 从 cs 到 任何 j > ;组 中 第 有 个 
单元 的 权重 ( 在 图 中 使 用 相同 的 线 型 表示 复制 权重 的 每 个 实例 )。 注 意向 量 (Wi Was... Wn,i) 
WA W.,io 









































Larochelle and Murray (2011) 选择 了 这 种 共享 方案 ， 使 得 NADE 模型 中 的 正 
向 传播 与 在 均匀 场 推断 中 执行 的 计算 大 致 相似 , 以 填充 RBM 中 缺失 的 输入 。 这 个 均 
匀 场 推断 对 应 于 运行 具有 共享 权重 的 循环 网 络 ， 并 且 该 推断 的 第 一 步 与 NADE 中 的 
相同 。 使 用 NADE 的 唯一 区 别 是 ， 连 接 隐藏 单元 到 输出 的 输出 权重 独立 于 连接 输入 
单元 和 隐藏 单元 的 权重 进行 参数 化 。 在 RBM 中 ， 隐 藏 到 输出 的 权重 是 输入 到 隐藏 
权重 的 转 置 。NADE 架构 可 以 扩展 为 不 仅仅 模拟 均匀 场 循环 推断 的 一 个 时 间 步 ， 而 
是 上 步 。 这 种 方法 称 为 NADE-k (Raiko et al., 2014)。 

如 前 所 述 , 自 回 归 网 络 可 以 被 扩展 成 处 理 连续 数据 。 用 于 参数 化 连续 密度 的 特别 
强大 和 通用 的 方法 是 混合 权重 为 o; (组 i 的 系数 或 先 验 概率 )， 每 组 条 件 均 值 为 ui 
和 每 组 条 件 方差 为 o? 的 高 斯 混合 体 。 一 个 称 为 RNADE 的 模型 (Uria et al., 2013) 
使 用 这 种 参数 化 将 NADE 扩展 到 实 值 。 与 其 他 混合 密度 网 络 一 样 ， 该 分 布 的 参数 是 
网 络 的 输出 ， 由 softmax 单元 产生 混合 的 权 量 概率 以 及 参数 化 的 方差 ， 因 此 可 使 它 
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们 为 正 的 。 由 于 条 件 均值 u 和 条 件 方差 o? 之 间 的 相互 作用 ， 随 机 梯度 下 降 在 数值 
上 可 能 会 表现 不 好 。 为 了 减少 这 种 困难 ，Uria et al. (2013) 在 后 回 传 播 阶段 使 用 伪 梯 
度 代替 平均 值 上 的 梯度 。 

另 一 个 非常 有 趣 的 神经 自 回 归 架 构 的 扩展 摆脱 了 为 观察 到 的 变量 选择 任意 顺序 
的 需要 (Murray and Larochelle, 2014)。 在 自 回归 网 络 中 ， 该 想法 是 训练 网 络 以 能 够 
通过 随机 采样 顺序 来 处 理 任 何 顺序 ， 并 将 信息 提供 给 指定 哪些 输入 被 观察 的 隐藏 单 
元 〈 在 条 件 条 的 右 侧 )， 以 及 哪些 是 被 预测 并 因此 被 认为 是 缺失 的 (在 条 件 条 的 左 
侧 )。 这 是 不 错 的 性 质 ， 因 为 它 允 许 人 们 非常 高 效 地 使 用 训练 好 的 自 回归 网 络 来 执行 
任何 推断 间 题 〈 即 从 给 定 任何 变量 的 子 集 ， 从 任何 子 集 上 的 概率 分 布 预测 或 采样 )。 
最 后 ， 由 于 变量 的 许多 顺序 是 可 能 的 ( 对 于 ”个 变量 是 n! )， 并 且 变 量 的 每 个 顺序 o 
产生 不 同 的 p(x | o)， 我们 可 以 组 成 许多 o 值 模 型 的 集成 : 


k 
1 i 
Pensemble (x) = k > px | ol f. (20.84) 
i—1 


这 个 集成 模型 通常 能 更 好 地 泛 化 ， 并 且 为 测试 集 分 配 比 单 个 排序 定义 的 单个 模型 更 
高 的 概率 。 

在 同一 篇 文章 中 ， 作 者 提出 了 深度 版 本 的 架构 ， 但 不 幸 的 是 ， 这 立即 使 计算 成 
本 像 原始 神经 自 回归 网 络 一 样 高 (Bengio and Bengio, 2000b)。 第 一 层 和 输出 层 仍 然 
可 以 在 O(nh) 的 乘法 -加 法 操作 中 计算 ， 如 在 常规 NADE P, HP h 是 隐藏 单元 的 
数量 (图 20.10 和 图 20.9 中 的 组 hi 的 大 小 为 而 它 在 Bengio and Bengio (2000b) 中 
是 O(m2h)。 然 而 ,对 于 其 他 隐藏 层 的 计算 量 是 O(n?h?) (假设 在 每 个 层 存在 nn 组 h 
个 隐藏 单 元 ， 且 在 ! 层 的 每 个 “先前 ”组 参与 预测 1 十 1 层 处 的 “下 一 个 ”组 )。 如 
在 Murray and Larochelle (2014) F, 使 1+1 层 上 的 第 i 个 组 仅 取决 于 第 i 个 组 , l 
层 处 的 计算 量 将 减少 到 O(nh?), 但 仍然 比 常规 NADE 差 h fit. 








20.11 从 自 编 码 器 采样 


在 第 十 四 章 中 ， 我 们 看 到 许多 种 学 习 数据 分 布 的 自 编码 器 。 得 分 匹配 、 去 噪 自 
编码 器 和 收缩 自 编码 器 之 间 有 着 密切 的 联系 。 这 些 联系 表明 某 些 类 型 的 自 编码 天 以 
某 些 方式 学 习 数 据 分 布 。 我 们 还 没有 讨论 如 何 从 这 样 的 模型 中 采样 。 

某 些 类 型 的 自 编码 器 ， 例 如 变 分 自 编码 器 ， 明 确 地 表示 概率 分 布 并 且 允 许 直 接 
的 原始 采样 。 而 大 多 数 其 他 类 型 的 自 编 码 器 则 需要 MCMC 采样 。 
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收缩 自 编 码 需 被 设计 为 恢复 数据 流 形 切面 的 估计 。 这 意味 着 使 用 注入 噪声 的 
重复 编码 和 解码 将 引起 沿 着 流 形 表面 的 随机 游 走 (Rifai et al., 2012; Mesnil et al., 
2012)。 这 种 流 形 扩散 技术 是 马尔 可 夫 链 的 一 种 。 

更 一 般 的 马尔 可 夫 链 还 可 以 从 任何 去 噪 自 编码 器 中 采样 。 


20.11.1 “与 任意 去 噪 自 编码 器 相关 的 马尔 可 夫 链 


上 述 讨论 留 下 了 一 个 开放 问题 一 一 注入 什么 噪声 和 从 哪 获得 马尔 可 夫 链 ( 可 以 
根据 自 编码 器 估计 的 分 布 生 成 样本 )。Bengio et al. (2013d) 展示 了 如 何 构建 这 种 用 
于 广义 去 噪 自 编码 器 (generalized denoising autoencoder) 的 马尔 可 夫 链 。 广 义 去 噪 
自 编 码 器 由 去 噪 分 布 指 定 ， 给 定 损坏 输入 后 ， 对 干净 输入 的 估计 进行 采样 。 

根据 估计 分 布 生成 的 马尔 可 夫 链 的 每 个 步骤 由 以 下 子 步骤 组 成 ， 如 图 20.11 所 
JR: 


1. 从 先前 状态 x 开始， 注入 损坏 噪声 ， 从 C(z |a) 中 采样 zo 
2. 将 T 编码 为 h= f(z). 





3. 解码 h 以 获得 p(x | w = g(h)) = p(x | 的 参数 w = g(h). 
4. 从 p(x | w = g(h)) = p(x | &) RE FARA a. 


Bengio et al. (2014) 表明 ， 如 果 自 编码 器 p(x | 2) 形成 对 应 真实 条 件 分 布 的 一 致 佑 
计量 ， 则 上 述 马尔 可 夫 链 的 平稳 分 布 形成 数据 生成 分 布 x 的 一 致 估计 量 (虽然 是 隐 
式 的 )。 


20.11.2 “ 夹 合 与 条 件 采 样 


与 玻 尔 效 曼 机 类 似 ， 去 噪 自 编码 器 及 其 推广 (例如 下 面 描述 的 GSN) 可 用 于 
从 条 件 分 布 p(xy | Xo) 中 采样 ， 只 需 夹 合 观察 单元 x; 并 在 给 定 xp 和 采 好 的 潜 变 
ig (如 果 有 的 话 ) 下 仅 重 采样 自由 单元 x。。 例 如 ，MP-DBM 可 以 被 解释 为 去 品 自 
编码 需 的 一 种 形式 ， 并 且 能 够 采样 丢失 的 输入 。GSN 随后 将 MP-DBM 中 的 一 些 想 
法 推广 以 执行 相同 的 操作 (Bengio et al., 2014)。Alain et al. (2015) 从 Bengio et al. 
(2014) 的 命题 1 中 发 现 了 一 个 缺失 条 件 ， 即 转移 算 子 (由 从 链 的 一 个 状态 到 下 一 个 
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图 20.11: 马尔 可 夫 链 的 每 个 步 又 与 训练 好 的 去 噪 自 编 码 器 相关 联 ， 根 据 由 去 噪 对 数 似 然 准则 隐 式 
训练 的 概率 模型 生成 样本 。 每 个 步 又 包括 : (a) 通过 损坏 过 程 C 向 状态 m 注入 噪声 产生 z, (b) 用 
函数 f 对 其 编码 ， 产 生 h= f(x). (c) 用 函数 9 解码 结果 ， 产 生 用 于 重 构 分 布 的 参数 w, (d) 给 
Ew, NEWI p(x | w = g(f(2))) 采样 新 状态 。 在 典型 的 平方 重 构 误差 情况 下 ，g(h) = $, 9f 
估计 E[r| 多 ， 损 坏 包 括 添加 高 斯 噪声 ， 并 且 从 p(x|w) 的 采样 包括 第 二 次 向 重 构 & 添加 高 斯 噪声 。 
后 者 的 噪声 水 平 应 对 应 于 重 构 的 均 方 误差 ， 而 注入 的 噪声 是 控制 混合 速度 以 及 估计 器 平滑 经 验 分 
布 程度 的 超 参数 (Vincent, 2011)。 在 这 所 示 的 例子 中 ， 只 有 C 和 p 条 件 是 随机 步骤 Cf 和 9g 是 
确定 性 计算 )， 我 们 也 可 以 在 自 编码 器 内 部 注入 噪声 ， 如 生成 随机 网 络 (Bengio et al., 2014). 





































































































状态 的 随机 映射 定义 ) 应 该 满足 细致 平衡 ( detailed balance) 的 属性 ， 表 明 无 论 转 
移 算 子 正 向 或 反 向 运行 ， 马 尔 可 夫 链 都 将 保持 平衡 。 

在 图 20.12 中 展示 了 夹 合 一 半 像 素 ( 图 像 的 右 部 分 ) 并 在 男 一 半 上 运行 马尔 可 夫 
链 的 实验 。 


20.11.3” 回 退 训 练 过 程 


回 退 训练 过 程 由 Bengio et al. (2013d) 等 人 提出 ,作为 一 种 加 速 去 品 自 编码 器 生 
成 训练 收敛 的 方法 。 不 像 执 行 一 步 编码 -解码 重建 ， 该 过 程 有 代替 的 多 个 随机 编码 - 解 
码 步 又 组 成 (如 在 生成 马尔 可 夫 链 中 )， 以 训练 样本 初始 化 (正如 在 第 18.2 节 中 描述 
的 对 比 散 度 算法 )， 并 惩罚 最 后 的 概率 重建 (或 沿途 的 所 有 重建 )。 

训练 个 步骤 与 训练 一 个 步 又 是 等 价 的 〈 在 实现 相同 稳 态 分 布 的 意义 上 ), 但 是 
实际 上 可 以 更 有 效 地 去 除 来 自 数据 的 伪 模 式 。 


ww ai bbc. com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github.com/exacity/deeplearningbook-chinese 
608 第 二 十 章 ”深度 生成 模型 


BY, 


AIS GK WKS YO 


| 


oom 
DEN 


is 


~、 
vv ou SO. CN MI p 


e 
fe 


AUS 


x 
ao 


= 
T 


EXT 
E 


iem 
M 


O DOJO 
/f|/ 
"PA 
3 3|3 
4 P. 
PESE K, 
( Glo 
7 7|7 
$373 
LEER E: 


x 








这 些 样本 


at 


链 的 示意 医 





图 20.12: 在 每 步 仅 重 采样 左 半 部 分 ， 夹 合 图 像 的 右 半 部 分 并 运行 马尔 可 
来 自重 构 MNIST 数字 的 GSN ( 每 个 时 间 步 使 用 回 退 过 程 )。 








20.12 ”生成 随机 网 络 


生成 随机 网 络 ( generative stochastic network, GSN ) (Bengio et al., 2014) 是 去 
品 自 编码 融 的 推广 ， 除 可 见 变 量 (通常 表示 为 x) 之 外 ， 在 生成 马尔 可 夫 链 中 还 包 
括 潜 变量 ho 


GSN 由 两 个 条 件 概 率 分 布 参 数 化 ， 指 定 马 尔 可 夫 链 的 一 步 : 











1. p(x | h?) 指示 在 给 定 当 前 潜在 状态 下 如 何 产生 下 一 个 可 见 变量 。 这 种 “ 重 
建 分 布 ” 也 可 以 在 去 品 自 编码 器 、RBM、DBN 和 DBM 中 找到 。 











2.p(h | PY, xD) 指示 在 给 定 先前 的 潜在 状态 和 可 见 变量 下 如 何 更 新 潜 
在 状态 变量 。 








去 噪 自 编码 器 和 GSN 不 同 于 经 典 的 概率 模型 (有 向 或 无 向 )， 它 们 自己 参数 化 
生成 过 程 而 不 是 通过 可 见 和 潜 变 量 的 联合 分 布 的 数学 形式 。 相 反 ， 后 者 如 果 存 在 则 
隐 式 地 定义 为 生成 马尔 可 夫 链 的 稳 态 分 布 。 存 在 稳 态 分 布 的 条 件 是 温和 的 ,并且 需 
要 与 标准 MCMC 方法 相同 的 条 件 (4,58 17.3 5 )。 这 些 条 件 是 保证 链 混 合 的 必要 条 
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件 ， 但 它们 可 能 被 某 些 过 渡 分 布 的 选择 〈 例如， 如 果 它 们 是 确定 性 的 ) 所 违反 。 

我 们 可 以 想象 GSN 不 同 的 训练 准则 。 由 Bengio et al. (2014) 提出 和 评估 的 
只 对 可 见 单元 上 对 数 概率 的 重建 ， 如 应 用 于 去 噪 自 编码 器 。 通 过 将 x = x 
合 到 观察 到 的 样本 并 且 在 一 些 后 续 时 间 步 处 使 生成 z 的 概率 最 大 化 ， 即 最 大 化 
log p(x = z| hH), APAE xO =a Ja, hH 从 链 中 采样 。 为 了 估计 相对 于 模 
型 其 他 部 分 的 log p(x = z| h) 的 梯度 ，Bengio et al. (2014) 使 用 了 在 第 20.9 5 
中 介绍 的 重 参数 化 技巧 。 

回 退 训练 过 程 (在 第 20.11.3 节 中 描述 ) 可 以 用 来 改善 训练 GSN 的 收敛 性 (Ben- 
gio et al., 2014) 。 





20.12.1 判别 性 GSN 


GSN 的 原始 公式 (Bengio et al., 2014) 用 于 无 监督 学 习 和 对 观察 数据 x 的 p(x) 
的 隐 式 建 模 ， 但 是 我 们 可 以 修改 框架 来 优化 p(y | x). 

例如 ，Zhou and Troyanskaya (2014) 以 如 下 方式 推广 GSN， 只 反 向 传播 输出 变 
量 上 的 重建 对 数 概率 ， 并 保持 输入 变量 固定 。 他 们 将 这 种 方式 成 功 应 用 于 建 模 序列 
( 蛋白质 二 级 结构 )， 并 在 马尔 可 夫 链 的 转换 算 子 中 引入 (一 维 ) 卷 积 结构 。 重 要 的 
是 要 记 住 ， 对 于 马尔 可 夫 链 的 每 一 步 ， 我 们 需要 为 每 个 层 生 成 新 序列 ， 并 且 该 序列 
用 于 在 下 一 时 间 步 计算 其 他 层 的 值 (例如 下 面 一 个 和 上 面 一 个 ) 的 输入 。 

因此 ， 马 尔 可 夫 链 确实 不 只 是 输出 变量 ( 与 更 高 层 的 隐藏 层 相 关联 )， 并 且 输 入 
序列 仅 用 于 条 件 化 该 链 ， 其 中 反 向 传播 使 得 它 能 够 学 习 输 入 序列 如 何 条 件 化 由 马尔 
可 夫 链 隐 含 表示 的 输出 分 布 。 因 此 这 是 在 结构 化 输出 中 使 用 GSN 的 一 个 例子 。 

Zóhrer and Pernkopf (2014) 引入 了 一 个 混合 模型 ， 通 过 简单 地 添加 (使 用 不 
同 的 权重 ) 监督 和 非 监 督 成 本 即 y 和 x 的 重建 对 数 概 率 ， 组 合 了 监督 目标 (如 上 
面 的 工作 ) 和 无 监督 目标 (如 原始 的 GSN )。Larochelle and Bengio (2008b) 以 前 
在 RBM 中 就 提出 了 这 样 的 混合 标准 。 他 们 展示 了 在 这 种 方案 下 分 类 性 能 的 提升 。 














20.13 ”其 他 生成 方案 


目前 为 止 我 们 已 经 描述 的 方法 ,使 用 MCMC 采样 、 原 始 采样 或 两 者 的 一 些 混 
合 来 生成 样本 。 虽 然 这 些 是 生成 式 建 模 中 最 流行 的 方法 ， 但 它们 绝 不 是 唯一 的 方法 。 
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Sohl-Dickstein et al. (2015) 开发 了 一 种 基于 非 平衡 热力 学 学 习 生 成 模型 的 扩散 
反 演 (diffusion inversion) 训练 方案 。 该 方法 基于 我 们 希望 从 中 采样 的 概率 分 布 具有 
结构 的 想法 。 这 种 结构 会 被 递增 地 使 概率 分 布 具 有 更 多 信 的 扩散 过 程 逐 渐 破 坏 。 为 
了 形成 生成 模型 ， 我 们 可 以 反 过 来 运行 该 过 程 ， 通 过 训练 模型 逐渐 将 结构 恢复 到 非 
结构 化 分 布 。 通 过 迭代 地 应 用 使 分 布 更 接近 目标 分 布 的 过 程 ， 我 们 可 以 逐渐 接近 该 
目标 分 布 。 在 涉及 许多 迭代 以 产生 样本 的 意义 上 ,这 种 方法 类 似 于 MCMC 方法 。 然 
Tij, 模型 被 定义 为 由 链 的 最 后 一 步 产 生 的 概率 分 布 。 在 这 个 意义 上 , 没有 由 迭代 过 程 
诱导 的 近似 。Sohl-Dickstein et al. (2015) 介绍 的 方法 也 非常 接近 于 去 噪 自 编码 器 的 
生成 解释 (第 20.11.1 节 )。 与 去 品 自 编码 器 一 样 ， 扩散 反 演 训练 一 个 尝试 概率 地 撤消 
添加 的 噪声 效果 的 转移 算 子 。 不 同 之 处 在 于 ， 扩 散 反 演 只 需要 消除 扩散 过 程 的 一 个 
步骤 ， 而 不 是 一 直 返 回 到 一 个 干净 的 数据 点 。 这 解决 了 去 噪 自 编码 器 的 普通 重建 对 
数 似 然 目 标 中 存在 的 以 下 两 难 问题 : 小 噪声 的 情况 下 学 习 者 只 能 看 到 数据 点 附近 的 
配置 ， 而 在 大 噪声 的 情况 下 ， 去 噪 自 编码 需 被 要 求 做 几乎 不 可 能 的 工作 〈 因为 去 噪 
分 布 是 高 度 复杂 和 多 峰值 的 ) 利用 扩散 反 演 目标 ， 学 习 者 可 以 更 精确 地 学 习 数 据点 
周围 的 密度 形状 ， 以 及 去 除 可 能 在 远离 数据 点 处 出 现 的 假 性 模式 。 

样本 生成 的 另 一 种 方法 是 近似 贝 叶 斯 计算 (approximate Bayesian computation, 
ABC ) 框架 (Rubin et aL, 1984)。 在 这 种 方法 中 ， 样 本 被 拒绝 或 修改 以 使 样本 选 定 
函数 的 玫 匹配 期 望 分 布 的 那些 和 矩 。 虽 然 这 个 想法 与 矩 匹 配 一 样 使 用 样本 的 和 矩 ， 但 它 
不 同 于 和 矩 匹配 ， 因 为 它 修改 样本 本 身 ， 而 不 是 训练 模型 来 自动 发 出 具有 正确 矩 的 样 
AX, Bachman and Precup (2015) 展示 了 如 何在 深度 学 习 的 背景 下 使 用 ABC 中 的 想 
法 ， 即 使 用 ABC 来 塑造 GSN 的 MCMC 轨迹 。 


我 们 期 得 更 多 其 他 等 待 发 现 的 生成 式 建 模 方法 。 

















20.14 ”评估 生成 模型 


研究 生成 模型 的 研究 者 通常 需要 将 一 个 生成 模型 与 男 一 个 生成 模型 比较 ， 通 常 
是 为 了 证 明 新 发 明 的 生成 模型 比 之 前 存在 的 模型 更 能 捕获 一 些 分 布 。 

这 可 能 是 一 个 困难 且 微 妙 的 任务 。 通 常 ， 我 们 不 能 实际 评估 模型 下 数据 的 对 数 
概率 ， 但 仅 可 以 评估 一 个 近似 。 在 这 些 情 况 下 ， 重 要 的 是 思考 和 沟通 清楚 正在 测量 
什么 。 例 如 ， 假 设 我 们 可 以 评估 模型 A 对 数 似 然 的 随机 估计 和 模型 B 对 数 似 然 的 
确定 性 下 界 。 如 果 模 型 A 得 分 高 于 模型 B， 哪 个 更 好 ? 如 果 我 们 关心 确定 哪个 模型 
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具有 分 布 更 好 的 内 部 表示 ， 我 们 实际 上 不 能 说 哪个 更 好 ， 除 非 我 们 有 一 些 方法 来 确 
定 模型 B 的 边界 有 多 松 。 然 而 ， 如 果 我 们 关心 在 实践 中 该 模型 能 用 得 多 好 ， 例 如 执 
行 异 常 检 测 ， 则 基于 特定 于 感 兴趣 的 实际 任务 的 准则 ， 可 以 公平 地 说 模型 是 更 好 的 ， 
例如 基于 排名 测试 样 例 和 排名 标准 ， 如 精度 和 召回 率 。 

评估 生成 模型 的 另 一 个 微妙 之 处 是 ， 评 估 指 标 往往 是 自身 困难 的 研究 问题 。 可 
能 很 难 确定 模型 是 否 被 公平 比较 。 例 如 ， 假 设 我 们 使 用 AIS 来 估计 log Z 以 便 为 我 
们 刚刚 发 明 的 新 模型 计算 log p(w) — log Zo AIS 计算 经 济 的 实现 可 能 无 法 找到 模型 
分 布 的 几 种 模式 并 低估 2 ， 这 将 导致 我 们 高 估 logp(z)。 因 此 可 能 难以 判断 高 似 然 佑 
计 是 否 是 良好 模型 或 不 好 的 AIS 实现 导致 的 结果 。 

机 器 学 习 的 其 他 领域 通常 允许 在 数据 预 处 理 中 有 一 些 变化 。 例 如 ， 当 比较 对 象 
识别 算法 的 准确 性 时 ， 通 常 可 接受 的 是 对 每 种 算法 略微 不 同 地 预 处 理 输入 图 像 ( 基 
于 每 种 算法 具有 何 种 输入 要 求 )。 而 因为 预 处 理 的 变化 ,会 导致 生成 式 建 模 的 不 同 ， 
甚至 非常 小 和 微妙 的 变化 也 是 完全 不 可 接受 的 。 对 输入 数据 的 任何 更 改 都 会 改变 要 
捕获 的 分 布 ， 并 从 根本 上 改变 任务 。 例 如 ， 将 输入 乘 以 0.1 将 人 为 地 将 概率 增加 10 
fü. 

预 处 理 的 问题 通常 在 基于 MNIST 数据 集 上 的 生成 模型 产生 ，MNIST 数据 集 是 
非常 受 欢 迎 的 生成 式 建 模 基准 之 一 。MNIST 由 灰 度 图 像 组 成 。 一 些 模型 将 MNIST 
图 像 视 为 实 向 量 空间 中 的 点 ， 而 其 他 模型 将 其 视 为 二 值 。 还 有 一 些 将 灰 度 值 视 为 二 
值 样本 的 概率 。 我 们 必须 将 实 值 模型 仅 与 其 他 实 值 模型 比较 ， 二 值 模型 仅 与 其 他 二 
值 模型 进行 比较 。 否则 , 测量 的 似 然 性 不 在 相同 的 空间 。 对 于 二 值 模型 ， 对 数 似 然 可 
以 最 多 为 零 ， 而 对 于 实 值 模型 ， 它 可 以 是 任意 高 的 ， 因 为 它 是 关于 密度 的 测度 。 在 
二 值 模型 中 ， 比 较 使 用 完全 相同 的 二 值 化 模型 是 重要 的 。 例 如 ， 我 们 可 以 将 0.5 d 
为 阔 值 后 ， 将 灰 度 像素 二 值 化 为 0 或 1， 或 者 通过 由 灰 度 像素 强度 给 出 样本 为 1 的 
概率 来 采 一 个 随机 样本 。 如 果 我 们 使 用 随机 二 值 化 ， 我 们 可 能 将 整个 数据 集 二 值 化 
一 次 ， 或 者 我 们 可 能 为 每 个 训练 步 又 采 不 同 的 随机 样 例 ， 然 后 采 多 个 样本 进行 评估 。 
这 三 个 方案 中 的 每 一 个 都 会 产生 极 不 相同 的 似 然 数 ， 并 且 当 比较 不 同 的 模型 时 ， 两 
个 模型 使 用 相同 的 二 值 化 方案 来 训练 和 评估 是 重要 的 。 事 实 上 ， 应 用 单个 随机 二 值 
化 步骤 的 研究 者 共享 包含 随机 二 值 化 结果 的 文件 ， 使 得 基于 二 值 化 步骤 的 不 同 输出 
的 结果 没有 差别 。 

因为 从 数据 分 布 生成 真实 样本 是 生成 模型 的 目标 之 一 ， 所 以 实践 者 通常 通过 视 
党 检查 样本 来 评估 生成 模型 。 在 最 好 的 情况 下 ， 这 不 是 由 研究 人 员 本 身 ， 而 是 由 不 
知道 样品 来 源 的 实验 受 试 者 完成 (Denton et al., 2015)。 不 幸 的 是 ， 非 常 差 的 概率 
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模型 可 能 会 产生 非常 好 的 样本 。 验 证 模型 是 否 仅 复制 一 些 训练 示例 的 常见 做 法 如 
图 16.1 所 示 。 该 想法 是 根据 在 z 空间 中 的 欧 儿 里 得 距离 ， 为 一 些 生成 的 样本 显示 它 
们 在 训练 集中 的 最 近邻 。 此 测试 虽 在 检测 模型 过 拟 合 训练 集 并 仅 再 现 训练 实例 的 情 
况 。 甚 至 可 能 同时 欠 拟 合 和 过 拟 合 ， 但 仍然 能 产生 单独 看 起 来 好 的 样本 。 想 象 一 下 ， 
生成 模型 用 狗 和 猫 的 图 像 训练 时 ， 但 只 是 简单 地 学 习 来 重 现 狗 的 训练 图 像 。 这 样 的 
模型 明显 过 拟 合 ， 因 为 它 不 能 产生 不 在 训练 集中 的 图 像 ， 但 是 它 也 欠 拟 合 ， 因 为 它 
不 给 猫 的 训练 图 像 分 配 概率 。 然 而 ， 人 类 观察 者 将 判断 狗 的 每 个 个 体 图 像 都 是 高 质 
量 的 。 在 这 个 简单 的 例子 中 ， 对 于 能 够 检查 许多 样本 的 人 类 观察 者 来 说 ， 确 定 猫 的 
不 存在 是 容易 的 。 在 更 实际 的 设 定 中 ,在 具有 数 万 个 模式 的 数据 上 训练 后 的 生成 模 
型 可 以 忽略 少数 模式 ， 并 且 人 类 观察 者 不 能 容易 地 检查 或 记 住 足够 的 图 像 以 检测 丢 
失 的 变化 。 

由 于 样本 的 视觉 质量 不 是 可 靠 的 标准 ， 所 以 当 计 算 可 行 时 ， 我 们 通常 还 评估 模 
型 分 配给 测试 数据 的 对 数 似 然 。 不 科 的 是 ， 在 某 些 情况 下 ， 似 然 性 似乎 不 可 能 测量 
我 们 真正 关心 的 模型 的 任何 属性 。 例 如 ，MNIST 的 实 值 模型 可 以 将 任意 低 的 方差 
分 配给 从 不 改变 的 背景 像素 ， 获 得 任意 高 的 似 然 。 即 使 这 不 是 一 个 非常 有 用 的 事情 ， 
检测 这 些 常 量 特征 的 模型 和 算法 可 以 获得 无 限 的 奖励 。 实 现 接 近 负 无 穷 代价 的 可 能 
性 存在 于 任何 实 值 的 最 大 似 然 问题 中 ,但 是 对 于 MNIST 的 生成 模型 问题 尤为 严重 ， 
因为 许多 输出 值 是 不 需要 预测 的 。 这 强烈 地 表明 需要 开发 评估 生成 模型 的 其 他 方法 。 

Theis et al. (2015) 回顾 了 评估 生成 模型 所 涉及 的 许多 问题 ， 包 括 上 述 的 许多 想 
法 。 他 们 强调 了 生成 模型 有 许多 不 同 的 用 途 ， 并 且 指 标的 选择 必须 与 模型 的 预期 用 
途 相 匹配 。 例 如 ， 一 些 生成 模型 更 好 地 为 大 多 数 真 实 的 点 分 配 高 概率 ， 而 其 他 生成 
模型 擅长 于 不 将 高 概率 分 配给 不 真实 的 点 。 这 些 差异 可 能 源 于 生成 模型 是 设计 为 最 
小 化 DkL(paatallpmoaal) 还 是 Drr(puoaslllpaata)， 如 图 3.6 所 示 。 不 幸 的 是 ， 即 使 我 
们 将 每 个 指标 的 使 用 限制 在 最 适合 的 任务 上 ， 目 前 使 用 的 所 有 指标 仍 存在 严重 的 缺 
陷 。 因 此 ， 生 成 式 建 模 中 最 重要 的 研究 课题 之 一 不 仅仅 是 如 何 提升 生成 模型 ， 事 实 
上 还 包括 了 设计 新 的 技术 来 衡量 我 们 的 进步 。 









































20.15 ”结论 


为 了 让 模型 理解 表示 在 给 定 训 练 数据 中 的 大 千 世 界 ， 训 练 具有 隐藏 单元 的 生成 
模型 是 一 种 有 力 方法 。 通 过 学 习 模 型 pasas (2) 和 表示 piwoaa(h | x)， 生 成 模型 可 以 
解答 z 输入 变量 之 间 关系 的 许多 推断 问题 ,并且 可 以 在 层次 的 不 同 层 对 h 求 期 望 来 





wwaibbt.com DODDDDODOD 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
20.15 结论 613 


提供 表示 z 的 许多 不 同方 式 。 生 成 模型 承诺 为 AI 系统 提供 它们 需要 理解 的 、 所 有 
不 同 直 观 概 念 的 框架 ， 让 它们 有 能 力 在 面 对 不 确定 性 的 情况 下 推理 这 些 概念 。 我 们 
希望 我 们 的 读者 能 够 找到 增强 这 些 方法 的 新 途径 ， 并 继续 探究 学 习 和 智能 背后 原理 
的 旅程 。 





ww ai bbc. com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 


参考 文献 


-1). JMLR. 617, 648 

-1a). Icml’08. In ICML’08. ACM. 648, 673 

-1b). Icml'11. In /CML'11. 627, 633 

-1c). IcmI13. In ICML’13. 634, 659 

-1). International conference on learning representations 2014. In ICLR’2014. 659, 674 


-la). Nips’05. In NIPS 18. MIT Press. 618 





-1b). Nips’13. In NIPS26. NIPS Foundation. 628, 634 


Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, G. S., Davis, 
A., Dean, J., Devin, M., Ghemawat, S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, 
Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mané, D., Monga, R., Moore, S., 
Murray, D., Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, 
P., Vanhoucke, V., Vasudevan, V., Viégas, F., Vinyals, O., Warden, P., Wattenberg, M., 
Wicke, M., Yu, Y., and Zheng, X. (2015). TensorFlow: Large-scale machine learning on 


heterogeneous systems. Software available from tensorflow.org. 24, 182, 379 


Ackley, D. H., Hinton, G. E., and Sejnowski, T. J. (1985). A learning algorithm for Boltzmann 
machines. Cognitive Science, 9, 147—169. 485, 558 


Alain, G. and Bengio, Y. (2013). What regularized auto-encoders learn from the data generating 
distribution. In ICLR'2013, arXiv:1211.4246. 432, 438, 444 


Alain, G., Bengio, Y., Yao, L., Éric Thibodeau-Laufer, Yosinski, J., and Vincent, P. (2015). 
GSNs: Generative stochastic networks. arXiv:1503.05571. 435, 606 


Anderson, E. (1935). The Irises of the Gaspé Peninsula. Bulletin of the American Iris Society, 
59, 2-5. 18 


614 
ww ai bbc. com 1 B BL BL B B 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 615 


Ba, J., Mnih, V., and Kavukcuoglu, K. (2014). Multiple object recognition with visual attention. 
arXiv:1412.7755. 590 


Bachman, P. and Precup, D. (2015). Variational generative stochastic networks with collabo- 
rative shaping. In Proceedings of the 32nd International Conference on Machine Learning, 
ICML 2015, Lille, France, 6-11 July 2015, pages 1964-1972. 610 


Bacon, P.-L., Bengio, E., Pineau, J., and Precup, D. (2015). Conditional computation in neu- 
ral networks using a decision-theoretic approach. In 2nd Multidisciplinary Conference on 
Reinforcement Learning and Decision Making (RLDM 2015). 382 


Bagnell, J. A. and Bradley, D. M. (2009). Differentiable sparse coding. In NIPS'2009, pages 
113-120. 424 


Bahdanau, D., Cho, K., and Bengio, Y. (2015). Neural machine translation by jointly learning 
to align and translate. In ICLR’2015, arXiv:1409.04773. 23, 89, 338, 355, 357, 394, 403, 404 


Bahl, L. R., Brown, P., de Souza, P. V., and Mercer, R. L. (1987). Speech recognition with 
continuous-parameter hidden Markov models. Computer, Speech and Language, 2, 219-234. 
389 


Baldi, P. and Hornik, K. (1989). Neural networks and principal component analysis: Learning 


from examples without local minima. Neural Networks, 2, 53-58. 244 


Baldi, P., Brunak, S., Frasconi, P., Soda, G., and Pollastri, G. (1999). Exploiting the past and 
the future in protein secondary structure prediction. Bioinformatics, 15(11), 937-946. 336 


Baldi, P., Sadowski, P., and Whiteson, D. (2014). Searching for exotic particles in high-energy 


physics with deep learning. Nature communications, 5. 24 


Ballard, D. H., Hinton, G. E., and Sejnowski, T. J. (1983). Parallel vision computation. Nature. 
384 


Barlow, H. B. (1989). Unsupervised learning. Neural Computation, 1, 295-311. 128 


Barron, A. E. (1993). Universal approximation bounds for superpositions of a sigmoidal function. 
IEEE Trans. on Information Theory, 39, 930-945. 171 


Bartholomew, D. J. (1987). Latent variable models and factor analysis. Oxford University Press. 
417 


Basilevsky, A. (1994). Statistical Factor Analysis and Related Methods: Theory and Applications. 
Wiley. 417 


ww ai bbc. com GOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
616 参考 文献 


Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I., Bergeron, A., Bouchard, N., 
Warde-Farley, D., and Bengio, Y. (2012a). Theano: new features and speed improvements. 
Submited to the Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop, 
http://www.iro.umontreal.ca/ lisa/publications2/index.php/publications/show/551. 23, 73, 
379 


Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, 
N., and Bengio, Y. (2012b). Theano: new features and speed improvements. Deep Learning 
and Unsupervised Feature Learning NIPS 2012 Workshop. 182, 191 


Basu, S. and Christensen, J. (2013). Teaching classification boundaries to humans. In 
AAAI’2013. 279 


Baxter, J. (1995). Learning internal representations. In Proceedings of the 8th International 
Conference on Computational Learning Theory (COLT’95), pages 311—320, Santa Cruz, Cal- 
ifornia. ACM Press. 210 


Bayer, J. and Osendorfer, C. (2014). Learning stochastic recurrent networks. ArXiv e-prints. 
227 


Becker, S. and Hinton, G. (1992). A self-organizing neural network that discovers surfaces in 
random-dot stereograms. Nature, 355, 161—163. 461 


Behnke, S. (2001). Learning iterative image reconstruction in the neural abstraction pyramid. 
Int. J. Computational Intelligence and Applications, 1(4), 427—438. 439 


Beiu, V., Quintana, J. M., and Avedillo, M. J. (2003). VLSI implementations of threshold logic-a 
comprehensive survey. Neural Networks, IEEE Transactions on, 14(5), 1217-1243. 383 


Belkin, M. and Niyogi, P. (2002). Laplacian eigenmaps and spectral techniques for embedding 
and clustering. In T. Dietterich, S. Becker, and Z. Ghahramani, editors, Advances in Neural 
Information Processing Systems 14 (NIPS'01), Cambridge, MA. MIT Press. 209 


Belkin, M. and Niyogi, P. (2003a). Laplacian eigenmaps for dimensionality reduction and data 
representation. Neural Computation, 15(6), 1373-1396. 442 


Belkin, M. and Niyogi, P. (2003b). Using manifold structure for partially labeled classification. In 
S. Becker, S. Thrun, and K. Obermayer, editors, Advances in Neural Information Processing 
Systems 15 (NIPS'02), Cambridge, MA. MIT Press. 141 


Bengio, E., Bacon, P.-L., Pineau, J., and Precup, D. (2015a). Conditional computation in neural 
networks for faster models. arXiv:1511.06297. 382 


ww ai bbc. com r1 HL HB BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 617 


Bengio, S. and Bengio, Y. (1996). An EM algorithm for asynchronous input/output hidden 
Markov models. In L. Xu, editor, International Conference On Neural Information Processing, 
pages 328-334. 379 


Bengio, S. and Bengio, Y. (2000a). Taking on the curse of dimensionality in joint distributions 
using neural networks. IEEE Transactions on Neural Networks, special issue on Data Mining 
and Knowledge Discovery, 11(3), 550—557. 602 


Bengio, S., Vinyals, O., Jaitly, N., and Shazeer, N. (2015b). Scheduled sampling for sequence 


prediction with recurrent neural networks. Technical report, arXiv:1506.03099. 326 


Bengio, Y. (2000). Gradient-based optimization of hyperparameters. Neural Computation, 
12(8), 1889-1900. 369 


Bengio, Y. (2002). New distributed probabilistic language models. Technical Report 1215, Dept. 
IRO, Université de Montréal. 396 


Bengio, Y. (2009). Learning deep architectures for AI. Now Publishers. 173, 530 


Bengio, Y. (2015). Early inference in energy-based models approximates back-propagation. 
Technical Report arXiv:1510.02777, Universite de Montreal. 559 


Bengio, Y. and Bengio, S. (2000b). Modeling high-dimensional discrete data with multi-layer 
neural networks. In NIPS 12, pages 400—406. MIT Press. 601, 602, 603, 605 


Bengio, Y. and Delalleau, O. (2009). Justifying and generalizing contrastive divergence. Neural 
Computation, 21(6), 1601-1621. 437, 519 


Bengio, Y. and Grandvalet, Y. (2004). No unbiased estimator of the variance of k-fold cross- 
validation. In JML ( 1), pages 1089-1105. 107 


Bengio, Y. and LeCun, Y. (2007a). Scaling learning algorithms towards AI. In Large Scale 
Kernel Machines. 17 


Bengio, Y. and LeCun, Y. (2007b). Scaling learning algorithms towards AI. In L. Bottou, 
O. Chapelle, D. DeCoste, and J. Weston, editors, Large Scale Kernel Machines. MIT Press. 
17 


Bengio, Y. and Monperrus, M. (2005). Non-local manifold tangent learning. In L. Saul, Y. Weiss, 
and L. Bottou, editors, Advances in Neural Information Processing Systems 17 (NIPS'04), 
pages 129-136. MIT Press. 138, 443 


Bengio, Y. and Sénécal, J.-S. (2003). Quick training of probabilistic neural nets by importance 
sampling. In Proceedings of AISTATS 2003. 399 


ww ai bbc. com LL B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
618 参考 文献 


Bengio, Y. and Sénécal, J.-S. (2008). Adaptive importance sampling to accelerate training of a 
neural probabilistic language model. IEEE Trans. Neural Networks, 19(4), 713-722. 399 


Bengio, Y., De Mori, R., Flammia, G., and Kompe, R. (1991). Phonetically motivated acoustic 
parameters for continuous speech recognition using artificial neural networks. In Proceedings 
of EuroSpeech'91. 21, 346, 389 


Bengio, Y., De Mori, R., Flammia, G., and Kompe, R. (1992). Neural network-Gaussian mixture 
hybrid for speech recognition or density estimation. In NIPS 4, pages 175-182. Morgan 
Kaufmann. 389 


Bengio, Y., Frasconi, P., and Simard, P. (1993). The problem of learning long-term dependencies 
in recurrent networks. In IEEE International Conference on Neural Networks, pages 1183- 
1195, San Francisco. IEEE Press. (invited paper). 343 


Bengio, Y., Simard, P., and Frasconi, P. (1994a). Learning long-term dependencies with gradient 
descent is difficult. IEEE Transactions on Neural Networks, 5(2), 157—166. 16, 342, 343, 344 


Bengio, Y., Simard, P., and Frasconi, P. (1994b). Learning long-term dependencies with gradient 
descent is difficult. IEEE Transactions on Neural Networks, 5(2), 157-166. 350 





Bengio, Y., Latendresse, S., and Dugas, C. (1999). Gradient-based learning of hyper-parameters. 


In Learning Conference. 369 


Bengio, Y., Ducharme, R., and Vincent, P. (2001a). A neural probabilistic language model. 
In T. Leen, T. Dietterich, and V. Tresp, editors, Advances in Neural Information Processing 
Systems 13 (NIPS'00), pages 933-938. MIT Press. 16 


Bengio, Y., Ducharme, R., and Vincent, P. (2001b). A neural probabilistic language model. In 
T. K. Leen, T. G. Dietterich, and V. Tresp, editors, NIPS’2000, pages 932-938. MIT Press. 
393, 395, 401, 405, 409 


Bengio, Y., Ducharme, R., Vincent, P., and Jauvin, C. (2003). A neural probabilistic language 
model. JMLR, 3, 1137-1155. 395, 401 


Bengio, Y., Delalleau, O., and Le Roux, N. (2006a). The curse of highly variable functions for 
local kernel machines. In NIP ( 1a), pages 107-114. 137 


Bengio, Y., Larochelle, H., and Vincent, P. (2006b). Non-local manifold parzen windows. In 
NIP ( 1a). 138 


Bengio, Y., Larochelle, H., and Vincent, P. (2006c). Non-local manifold Parzen windows. In 
NIPS'2005. MIT Press. 443 


ww ai bbc. com BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 619 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H. (2007a). Greedy layer-wise training of 
deep networks. In NIPS'2006. 13, 275 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H. (2007b). Greedy layer-wise training 
of deep networks. In B. Schélkopf, J. Platt, and T. Hoffman, editors, Advances in Neural 
Information Processing Systems 19 (NIPS'06), pages 153-160. MIT Press. 173 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H. (2007c). Greedy layer-wise training of 
deep networks. In Adv. Neural Inf. Proc. Sys. 19, pages 153-160. 274 


Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H. (2007d). Greedy layer-wise training 
of deep networks. In NIPS 19, pages 153-160. MIT Press. 275, 450, 451 


Bengio, Y., Louradour, J., Collobert, R., and Weston, J. (2009). Curriculum learning. In 
ICML’09. ACM. 278 


Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, S. (2013a). Better mixing via deep representa- 
tions. In ICML’2013. 513 


Bengio, Y., Léonard, N., and Courville, A. (2013b). Estimating or propagating gradients through 
stochastic neurons for conditional computation. arXiv:1308.3432. 381, 587, 589 


Bengio, Y., Léonard, N., and Courville, A. (2013c). Estimating or propagating gradients through 
stochastic neurons for conditional computation. ArXiv e-prints, abs/1308.3432. 381, 382 


Bengio, Y., Yao, L., Alain, G., and Vincent, P. (2013d). Generalized denoising auto-encoders as 
generative models. In NIPS’2018. 432, 606, 607 


Bengio, Y., Courville, A., and Vincent, P. (2013e). Representation learning: A review and 
new perspectives. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(8), 
1798-1828. 472 


Bengio, Y., Thibodeau-Laufer, E., Alain, G., and Yosinski, J. (2014). Deep generative stochastic 
networks trainable by backprop. In ICML’2014. 606, 607, 608, 609 


Bennett, C. (1976). Efficient estimation of free energy differences from Monte Carlo data. Journal 
of Computational Physics, 22(2), 245-268. 535 


Bennett, J. and Lanning, S. (2007). The Netflix prize. 407 


Berglund, M. and Raiko, T. (2013). Stochastic gradient estimate variance in contrastive diver- 


gence and persistent contrastive divergence. CoRR, abs/1312.6002. 522 


Bergstra, J. (2011). Incorporating Complex Cells into Neural Networks for Pattern Classification. 
Ph.D. thesis, Université de Montréal. 218 


ww ai bbt.com (1 HL EL BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
620 参考 文献 


Bergstra, J. and Bengio, Y. (2009). Slow, decorrelated features for pretraining complex cell-like 
networks. In NIPS 22, pages 99-107. MIT Press. 420 


Bergstra, J. and Bengio, Y. (2011). Random search for hyper-parameter optimization. The 
Learning Workshop, Fort Lauderdale, Florida. 368 


Bergstra, J. and Bengio, Y. (2012). Random search for hyper-parameter optimization. J. 
Machine Learning Res., 13, 281—305. 368, 369 


Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., 
Warde-Farley, D., and Bengio, Y. (2010a). Theano: a CPU and GPU math expression 
compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy). Oral 
Presentation. 23, 73 


Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., 
Warde-Farley, D., and Bengio, Y. (2010b). Theano: a CPU and GPU math expression 
compiler. In Proc. SciPy. 182, 191 


Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., 
Warde-Farley, D., and Bengio, Y. (2010c). Theano: a CPU and GPU math expression 
compiler. In Proceedings of the Python for Scientific Computing Conference (SciPy). 379 


Bergstra, J., Bardenet, R., Bengio, Y., and Kégl, B. (2011). Algorithms for hyper-parameter 
optimization. In NIPS’2011. 370 


Berkes, P. and Wiskott, L. (2005). Slow feature analysis yields a rich repertoire of complex cell 
properties. Journal of Vision, 5(6), 579-602. 422 


Bertsekas, D. P. and Tsitsiklis, J. (1996). Neuro-Dynamic Programming. Athena Scientific. 93 
Besag, J. (1975). Statistical analysis of non-lattice data. The Statistician, 24(3), 179-195. 524 
Bishop, C. M. (1994). Mixture density networks. 163 


Bishop, C. M. (1995a). Regularization and complexity control in feed-forward networks. In 
Proceedings International Conference on Artificial Neural Networks ICANN’95, volume 1, 
page 141-148. 207, 214 


Bishop, C. M. (1995b). Training with noise is equivalent to Tikhonov regularization. Neural 
Computation, 7(1), 108-116. 207 


Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. 87, 126 


Blum, A. L. and Rivest, R. L. (1992). Training a 3-node neural network is NP-complete. 249 


ww ai bbt.com BEBE BL B B 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 621 


Blumer, A., Ehrenfeucht, A., Haussler, D., and Warmuth, M. K. (1989). Learnability and the 
Vapnik-Chervonenkis dimension. Journal of the ACM, 36(4), 929---865. 100 


Bonnet, G. (1964). Transformations des signaux aléatoires à travers les systémes non linéaires 


sans mémoire. Annales des Télécommunications, 19(9—10), 203-220. 587 


Bordes, A., Weston, J., Collobert, R., and Bengio, Y. (2011). Learning structured embeddings 
of knowledge bases. In AAAI 2011. 410, 411 


Bordes, A., Glorot, X., Weston, J., and Bengio, Y. (2012). Joint learning of words and meaning 
representations for open-text semantic parsing. AISTATS’2012. 342, 410, 411 


Bordes, A., Glorot, X., Weston, J., and Bengio, Y. (2013a). A semantic matching energy 
function for learning with multi-relational data. Machine Learning: Special Issue on Learning 
Semantics. 410 


Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., and Yakhnenko, O. (2013b). Trans- 
lating embeddings for modeling multi-relational data. In C. Burges, L. Bottou, M. Welling, 
Z. Ghahramani, and K. Weinberger, editors, Advances in Neural Information Processing Sys- 
tems 26, pages 2787-2795. Curran Associates, Inc. 410 


Bornschein, J. and Bengio, Y. (2015). Reweighted wake-sleep. In ICLR'2015, arXiv:1406.2751. 
591 


Bornschein, J., Shabanian, S., Fischer, A., and Bengio, Y. (2015). Training bidirectional 
Helmholtz machines. Technical report, arXiv:1506.03877. 591 


Boser, B. E., Guyon, I. M., and Vapnik, V. N. (1992). A training algorithm for optimal margin 
classifiers. In COLT 92: Proceedings of the fifth annual workshop on Computational learning 
theory, pages 144—152, New York, NY, USA. ACM. 16, 123 


Bottou, L. (1998). Online algorithms and stochastic approximations. In D. Saad, editor, Online 
Learning in Neural Networks. Cambridge University Press, Cambridge, UK. 252 


Bottou, L. (2011) From machine learning to machine reasoning. Technical report, 
arXiv.1102.1808. 340, 341 


Bottou, L. (2015). Multilayer neural networks. Deep Learning Summer School. 373 


Bottou, L. and Bousquet, O. (2008a). The tradeoffs of large scale learning. In J. Platt, D. Koller, 
Y. Singer, and S. Roweis, editors, Advances in Neural Information Processing Systems 20 
(NIPS’07), volume 20. MIT Press, Cambridge, MA. 240 


Bottou, L. and Bousquet, O. (2008b). The tradeoffs of large scale learning. In NIPS’2008. 251 


ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
622 参考 文献 


Boulanger-Lewandowski, N., Bengio, Y., and Vincent, P. (2012). Modeling temporal depen- 
dencies in high-dimensional sequences: Application to polyphonic music generation and tran- 
scription. In ICML’12. 584 


Boureau, Y., Ponce, J., and LeCun, Y. (2010). A theoretical analysis of feature pooling in vision 


algorithms. In Proc. International Conference on Machine learning (ICML’10). 291 


Boureau, Y., Le Roux, N., Bach, F., Ponce, J., and LeCun, Y. (2011). Ask the locals: multi-way 
local pooling for image recognition. In Proc. International Conference on Computer Vision 
(ICCV'11). IEEE. 292 


Bourlard, H. and Kamp, Y. (1988). Auto-association by multilayer perceptrons and singular 
value decomposition. Biological Cybernetics, 59, 291-294. 428 


Bourlard, H. and Wellekens, C. (1989). Speech pattern discrimination and multi-layered per- 
ceptrons. Computer Speech and Language, 3, 1-19. 389 


Boyd, S. and Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press, New 
York, NY, USA. 82 


Brady, M. L., Raghavan, R., and Slawny, J. (1989). Back-propagation fails to separate where 
perceptrons succeed. IEEE Transactions on Circuits and Systems, 36(5), 665-674. 242 


Brakel, P., Stroobandt, D., and Schrauwen, B. (2013). Training energy-based models for time- 
series imputation. Journal of Machine Learning Research, 14, 2771-2797. 575, 595 


Brand, M. (2003a). Charting a manifold. In S. Becker, S. Thrun, and K. Obermayer, editors, 
Advances in Neural Information Processing Systems 15 (NIPS'02), pages 961—968. MIT Press. 
141 


Brand, M. (2003b). Charting a manifold. In NIPS'2002, pages 961-968. MIT Press. 442 
Breiman, L. (1994). Bagging predictors. Machine Learning, 24(2), 123-140. 219 


Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984). Classification and 
Regression Trees. Wadsworth International Group, Belmont, CA. 125 


Bridle, J. S. (1990). Alphanets: a recurrent ‘neural’ network architecture with a hidden Markov 
model interpretation. Speech Communication, 9(1), 83-92. 160 


Briggman, K., Denk, W., Seung, S., Helmstaedter, M. N., and Turaga, S. C. (2009). Maximin 
affinity learning of image segmentation. In NIPS'2009, pages 1865-1873. 305 


ww ai bbc. com LL DEL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 623 


Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, 
R. L., and Roossin, P. S. (1990). A statistical approach to machine translation. Computational 
linguistics, 16(2), 79-85. 18 


Brown, P. F., Pietra, V. J. D., DeSouza, P. V., Lai, J. C., and Mercer, R. L. (1992). Class-based 
n-gram models of natural language. Computational Linguistics, 18, 467-479. 393 


Bryson, A. and Ho, Y. (1969). Applied optimal control: optimization, estimation, and control. 
Blaisdell Pub. Co. 194 


Bryson, Jr., A. E. and Denham, W. F. (1961). A steepest-ascent method for solving optimum 
programming problems. Technical Report BR-1303, Raytheon Company, Missle and Space 
Division. 194 


Buciluá, C., Caruana, R., and Niculescu-Mizil, A. (2006). Model compression. In Proceedings of 
the 12th ACM SIGKDD international conference om Knowledge discovery and data mining, 
pages 535-541. ACM. 380 


Burda, Y., Grosse, R., and Salakhutdinov, R. (2015). Importance weighted autoencoders. arXiv 
preprint arXiv:1509.00519. 595 


Cai, M., Shi, Y., and Liu, J. (2013). Deep maxout neural networks for speech recognition. In 
Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pages 
291-296. IEEE. 167 


Carreira-Perpifian, M. A. and Hinton, G. E. (2005). On contrastive divergence learning. In 
AISTATS’2005, pages 33-40. 519 


Caruana, R. (1993). Multitask connectionist learning. In Proceedings of the 1993 Connectionist 
Models Summer School, pages 372-379. 209 


Cauchy, A. (1847). Méthode générale pour la résolution de systémes d'équations simultanées. 


In Compte rendu des séances de l'académie des sciences, pages 536—538. 74, 193 


Cayton, L. (2005). Algorithms for manifold learning. Technical Report CS2008-0923, UCSD. 
141 


Chandola, V., Banerjee, A., and Kumar, V. (2009). Anomaly detection: A survey ACM 
computing surveys (CSUR), 41(3), 15. 90 


Chapelle, O., Weston, J., and Schélkopf, B. (2003). Cluster kernels for semi-supervised learning. 
In S. Becker, S. Thrun, and K. Obermayer, editors, Advances in Neural Information Processing 
Systems 15 (NIPS'02), pages 585-592, Cambridge, MA. MIT Press. 209 


ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
624 参考 文献 


Chapelle, O., Schólkopf, B., and Zien, A. (2006a). Semi-Supervised Learning. MIT Press, 
Cambridge, MA. 209 


Chapelle, O., Schólkopf, B., and Zien, A., editors (2006b). Semi-Supervised Learning. MIT 
Press, Cambridge, MA. 461 


Chellapilla, K., Puri, S., and Simard, P. (2006). High Performance Convolutional Neural Net- 
works for Document Processing. In Guy Lorette, editor, Tenth International Workshop on 
Frontiers in Handwriting Recognition, La Baule (France). Université de Rennes 1, Suvisoft. 
http://www.suvisoft.com. 20, 21, 378 


Chen, B., Ting, J.-A., Marlin, B. M., and de Freitas, N. (2010). Deep learning of invariant 
spatio-temporal features from video. NIPS*2010 Deep Learning and Unsupervised Feature 
Learning Workshop. 306 


Chen, S. F. and Goodman, J. T. (1999). An empirical study of smoothing techniques for language 
modeling. Computer, Speech and Language, 13(4), 359-393. 392, 393 


Chen, T., Du, Z., Sun, N., Wang, J., Wu, C., Chen, Y., and Temam, O. (2014a). DianNao: A 
small-footprint high-throughput accelerator for ubiquitous machine-learning. In Proceedings 
of the 19th international conference on Architectural support for programming languages and 
operating systems, pages 269—284. ACM. 383 


Chen, T., Li, M., Li, Y., Lin, M., Wang, N., Wang, M., Xiao, T., Xu, B., Zhang, C., and 
Zhang, Z. (2015). MXNet: A flexible and efficient machine learning library for heterogeneous 
distributed systems. arXiv preprint arXiv:1512.01274. 23 


Chen, Y., Luo, T., Liu, S., Zhang, S., He, L., Wang, J., Li, L., Chen, T., Xu, Z., Sun, N., et al. 
(2014b). DaDianNao: A machine-learning supercomputer. In Microarchitecture (MICRO), 
2014 47th Annual IEEE/ACM International Symposium on, pages 609-622. IEEE. 383 


Chilimbi, T., Suzue, Y., Apacible, J., and Kalyanaraman, K. (2014). Project Adam: Building 
an efficient and scalable deep learning training system. In 11th USENIX Symposium on 
Operating Systems Design and Implementation (OSDI'14). 380 


Cho, K., Raiko, T., and Ilin, A. (2010a). Parallel tempering is efficient for learning restricted 
Boltzmann machines. In Proceedings of the International Joint Conference om Neural Net- 
works (IJCNN 2010), Barcelona, Spain. 513 


Cho, K., Raiko, T., and llin, A. (2010b). Parallel tempering is efficient for learning restricted 
Boltzmann machines. In JJ/CNN' 2010. 523 


Cho, K., Raiko, T., and Ilin, A. (2011). Enhanced gradient and adaptive learning rate for 
training restricted Boltzmann machines. In ICML 2011, pages 105-112. 574 


ww ai bbc. com (HL EL BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 625 


Cho, K., Van Merriénboer, B., Gülcehre, Ç., Bahdanau, D., Bougares, F., Schwenk, H., and 
Bengio, Y. (2014a). Learning phrase representations using RNN encoder-decoder for sta- 
tistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods 
in Natural Language Processing (EMNLP), pages 1724-1734. Association for Computational 
Linguistics. 337 


Cho, K., van Merriénboer, B., Gulcehre, C., Bougares, F., Schwenk, H., and Bengio, Y. (2014b). 
Learning phrase representations using RNN encoder-decoder for statistical machine trans- 
lation. In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 
2014). 402 


Cho, K., Van Merriénboer, B., Bahdanau, D., and Bengio, Y. (2014c). On the properties of 
neural machine translation: Encoder-decoder approaches. ArXiv e-prints, abs/1409.1259. 
350 


Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B., and LeCun, Y. (2014). The loss 


surface of multilayer networks. 243, 244 


Chorowski, J., Bahdanau, D., Cho, K., and Bengio, Y. (2014). End-to-end continuous speech 


recognition using attention-based recurrent NN: First results. arXiv:1412.1602. 391 


Christianson, B. (1992). Automatic Hessians by reverse accumulation. /MA Journal of Numerical 
Analysis, 12(2), 135-150. 193 


Chrupala, G., Kadar, A., and Alishahi, A. (2015). Learning language through pictures. arXiv 
1506.03694. 350 


Chung, J., Gulcehre, C., Cho, K., and Bengio, Y. (2014). Empirical evaluation of gated recurrent 
neural networks on sequence modeling. NIPS'2014 Deep Learning workshop, arXiv 1412.3555. 
350, 391 


Chung, J., Giilcehre, Ç., Cho, K., and Bengio, Y. (2015a). Gated feedback recurrent neural 
networks. In ICML'15. 350 


Chung, J., Kastner, K., Dinh, L., Goel, K., Courville, A., and Bengio, Y. (2015b). A recurrent 
latent variable model for sequential data. In NIPS’2015. 595 


Ciresan, D., Meier, U., Masci, J., and Schmidhuber, J. (2012). Multi-column deep neural network 
for traffic sign classification. Neural Networks, 32, 333-338. 22, 173 


Ciresan, D. C., Meier, U., Gambardella, L. M., and Schmidhuber, J. (2010). Deep big simple 
neural nets for handwritten digit recognition. Neural Computation, 22, 1-14. 20, 21, 378 


ww ai bbc. com r1 HL BEBE BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
626 参考 文献 


Coates, A. and Ng, A. Y. (2011). The importance of encoding versus training with sparse coding 
and vector quantization. In ICML’2011. 21, 219, 424 


Coates, A., Lee, H., and Ng, A. Y. (2011). An analysis of single-layer networks in unsuper- 
vised feature learning. In Proceedings of the Thirteenth International Conference on Artificial 
Intelligence and Statistics (AISTATS 2011). 309, 386 


Coates, A., Huval, B., Wang, T., Wu, D., Catanzaro, B., and Andrew, N. (2013). Deep learning 
with COTS HPC systems. In S. Dasgupta and D. McAllester, editors, Proceedings of the 30th 
International Conference on Machine Learning (ICML-13), volume 28 (3), pages 1337-1345. 
JMLR Workshop and Conference Proceedings. 20, 21, 309, 380 


Cohen, N., Sharir, O., and Shashua, A. (2015). On the expressive power of deep learning: A 
tensor analysis. arXiv:1509.05009. 471 


Collobert, R. (2004). Large Scale Machine Learning. Ph.D. thesis, Université de Paris VI, LIP6. 
170 


Collobert, R. (2011). Deep learning for efficient discriminative parsing. In AISTATS’2011. 89, 
405 


Collobert, R. and Weston, J. (2008a). A unified architecture for natural language processing: 
Deep neural networks with multitask learning. In ICML’2008. 400, 405 


Collobert, R. and Weston, J. (2008b). A unified architecture for natural language processing: 
Deep neural networks with multitask learning. In ICML’2008. 454 


Collobert, R., Bengio, S., and Bengio, Y. (2001). A parallel mixture of SVMs for very large 
scale problems. Technical Report 12, IDIAP. 382 


Collobert, R., Bengio, S., and Bengio, Y. (2002). Parallel mixture of SVMs for very large scale 
problem. Neural Computation. 382 


Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., and Kuksa, P. (2011a). Nat- 
ural language processing (almost) from scratch. The Journal of Machine Learning Research, 
12, 2493-2537. 278, 405, 454, 455 


Collobert, R., Kavukcuoglu, K., and Farabet, C. (2011b). Torch7: A Matlab-like environment 
for machine learning. In BigLearn, NIPS Workshop. 23, 182, 379 


Comon, P. (1994). Independent component analysis - a new concept? Signal Processing, 36, 
287-314. 418 


ww ai bbt.com 1 DB BL B B 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 627 


Cortes, C. and Vapnik, V. (1995). Support vector networks. Machine Learning, 20, 273—297. 
16, 123 


Couprie, C., Farabet, C., Najman, L., and LeCun, Y. (2013). Indoor semantic segmentation using 
depth information. In International Conference on Learning Representations (ICLR2013). 22, 
173 


Courbariaux, M., Bengio, Y., and David, J.-P. (2015). Low precision arithmetic for deep learning. 
In Arziv:1412.7024, ICLR’2015 Workshop. 383 


Courville, A., Bergstra, J., and Bengio, Y. (2011a). Unsupervised models of images by spike- 
and-slab RBMs. In ICML’2011. 476 


Courville, A., Bergstra, J., and Bengio, Y. (2011b). Unsupervised models of images by spike- 
and-slab RBMs. In ICM ( 1b). 580 


Courville, A., Desjardins, G., Bergstra, J., and Bengio, Y. (2014). The spike-and-slab RBM 
and extensions to discrete and sparse data distributions. Pattern Analysis and Machine 
Intelligence, IEEE Transactions on, 36(9), 1874-1887. 582 


Cover, T. M. and Thomas, J. A. (2006). Elements of Information Theory, 2nd Edition. Wiley- 


Interscience. 66 


Cox, D. and Pinto, N. (2011). Beyond simple features: A large-scale feature search approach 
to unconstrained face recognition. In Automatic Face & Gesture Recognition and Workshops 
(FG 2011), 2011 IEEE International Conference on, pages 8-15. IEEE. 309 


Cramér, H. (1946). Mathematical methods of statistics. Princeton University Press. 118, 251 


Crick, F. H. C. and Mitchison, G. (1983). The function of dream sleep. Nature, 304, 111-114. 
517 


Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of 
Control, Signals, and Systems, 2, 303-314. 171 


Dahl, G. E., Ranzato, M., Mohamed, A., and Hinton, G. E. (2010). Phone recognition with the 
mean-covariance restricted Boltzmann machine. In Advances in Neural Information Process- 
ing Systems (NIPS). 22 


Dahl, G. E., Yu, D., Deng, L., and Acero, A. (2012). Context-dependent pre-trained deep neural 
networks for large vocabulary speech recognition. IEEE Transactions on Audio, Speech, and 
Language Processing, 20(1), 33-42. 390 


ww ai bbt.com HL BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
628 参考 文献 


Dahl, G. E., Sainath, T. N., and Hinton, G. E. (2013). Improving deep neural networks for 
LVCSR using rectified linear units and dropout. In ICASSP’2013. 390 


Dahl, G. E., Jaitly, N., and Salakhutdinov, R. (2014). Multi-task neural networks for QSAR 
predictions. arXiv:1406.1231. 24 


Dauphin, Y. and Bengio, Y. (2013). Stochastic ratio matching of RBMs for sparse high- 
dimensional inputs. In NIP ( 1b). 527 


Dauphin, Y., Glorot, X., and Bengio, Y. (2011). Large-scale learning of embeddings with 
reconstruction sampling. In ICML’2011. 400 


Dauphin, Y., Pascanu, R., Gulcehre, C., Cho, K., Ganguli, S., and Bengio, Y. (2014). Identifying 
and attacking the saddle point problem in high-dimensional non-convex optimization. In 
NIPS'2014. 243, 244 


Davis, A., Rubinstein, M., Wadhwa, N., Mysore, G., Durand, F., and Freeman, W. T. (2014). 
'The visual microphone: Passive recovery of sound from video. ACM Transactions on Graphics 
(Proc. SIGGRAPH), 33(4), 79:1—79:10. 384 


Dayan, P. (1990). Reinforcement comparison. In Connectionist Models: Proceedings of the 1990 
Connectionist Summer School, San Mateo, CA. 589 


Dayan, P. and Hinton, G. E. (1996). Varieties of Helmholtz machine. Neural Networks, 9(8), 
1385-1403. 591 


Dayan, P., Hinton, G. E., Neal, R. M., and Zemel, R. S. (1995). The Helmholtz machine. Neural 
computation, 7(5), 889-904. 591 


Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Le, Q., Mao, M., Ranzato, M., Senior, 
A., Tucker, P., Yang, K., and Ng, A. Y. (2012). Large scale distributed deep networks. In 
NIPS’2012. 23, 380 


Dean, T. and Kanazawa, K. (1989). A model for reasoning about persistence and causation. 
Computational Intelligence, 5(3), 142-150. 565 


Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R. (1990). In- 
dexing by latent semantic analysis. Journal of the American Society for Information Science, 
41(6), 391-407. 405, 409 


Delalleau, O. and Bengio, Y. (2011). Shallow vs. deep sum-product networks. In NIPS. 17, 471 


Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). ImageNet: A Large-Scale 
Hierarchical Image Database. In CVPR09. 18 


ww ai bt. com GOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 629 


Deng, J., Berg, A. C., Li, K., and Fei-Fei, L. (2010a). What does classifying more than 10,000 
image categories tell us? In Proceedings of the 11th European Conference on Computer Vision: 
Part V, ECCV’10, pages 71-84, Berlin, Heidelberg. Springer-Verlag. 18 


Deng, L. and Yu, D. (2014). Deep learning - methods and applications. Foundations and Trends 
in Signal Processing. 390 


Deng, L., Seltzer, M., Yu, D., Acero, A., Mohamed, A., and Hinton, G. (2010b). Binary coding 
of speech spectrograms using a deep auto-encoder. In Interspeech 2010, Makuhari, Chiba, 


Japan. 22 


Denil, M., Bazzani, L., Larochelle, H., and de Freitas, N. (2012). Learning where to attend with 
deep architectures for image tracking. Neural Computation, 24(8), 2151-2184. 312 


Denton, E., Chintala, S., Szlam, A., and Fergus, R. (2015). Deep generative image models using 
a Laplacian pyramid of adversarial networks. NIPS. 598, 611 


Desjardins, G. and Bengio, Y. (2008). Empirical evaluation of convolutional RBMs for vision. 
Technical Report 1327, Département d'Informatique et de Recherche Opérationnelle, Univer- 
sité de Montréal. 582 


Desjardins, G., Courville, A., Bengio, Y., Vincent, P., and Delalleau, O. (2010a). Tempered 
Markov chain Monte Carlo for training of restricted Boltzmann machine. In AISTATS, pages 
145-152. 513 


Desjardins, G., Courville, A. C., Bengio, Y., Vincent, P., and Delalleau, O. (2010b). Tempered 
Markov chain Monte Carlo for training of restricted Boltzmann machines. In International 


Conference on Artificial Intelligence and Statistics, pages 145-152. 523 


Desjardins, G., Courville, A., and Bengio, Y. (2011). On tracking the partition function. In 
NIPS'2011. 536 


Devlin, J., Zbib, R., Huang, Z., Lamar, T., Schwartz, R., and Makhoul, J. (2014). Fast and 
robust neural network joint models for statistical machine translation. In Proc. ACL’2014. 
402 


Devroye, L. (2013). Non- Uniform Random Variate Generation. SpringerLink : Bücher. Springer 
New York. 592 


DiCarlo, J. J. (2013). Mechanisms underlying visual object recognition: Humans vs. neurons 
vs. machines. NIPS Tutorial. 24, 311 


Dinh, L., Krueger, D., and Bengio, Y. (2014). NICE: Non-linear independent components 
estimation. arXiv:1410.8516. 420 


ww ai bbc. com HEBEL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
630 参考 文献 


Donahue, J., Hendricks, L. A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., 
and Darrell, T. (2014). Long-term recurrent convolutional networks for visual recognition and 
description. arXiv:1411.4389. 90 


Donoho, D. L. and Grimes, C. (2003). Hessian eigenmaps: new locally linear embedding tech- 
niques for high-dimensional data. Technical Report 2003-08, Dept. Statistics, Stanford Uni- 
versity. 141, 442 


Dosovitskiy, A., Springenberg, J. T., and Brox, T. (2015). Learning to generate chairs with 
convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision 
and Pattern Recognition, pages 1538-1546. 593, 600 


Doya, K. (1993). Bifurcations of recurrent neural networks in gradient descent learning. IEEE 
Transactions on Neural Networks, 1, 75-80. 342, 344 


Dreyfus, S. E. (1962). The numerical solution of variational problems. Journal of Mathematical 
Analysis and Applications, 5(1), 30-45. 194 


Dreyfus, S. E. (1973). The computational solution of optimal control problems with time lag. 
IEEE Transactions on Automatic Control, 18(4), 383-385. 194 


Drucker, H. and LeCun, Y. (1992). Improving generalisation performance using double back- 
propagation. IEEE Transactions on Neural Networks, 3(6), 991—997. 232 


Duchi, J., Hazan, E., and Singer, Y. (2011). Adaptive subgradient methods for online learning 


and stochastic optimization. Journal of Machine Learning Research. 260 


Dudik, M., Langford, J., and Li, L. (2011). Doubly robust policy evaluation and learning. In 
Proceedings of the 28th International Conference on Machine learning, ICML "11. 409 


Dugas, C., Bengio, Y., Belisle, F., Nadeau, C., and Garcia, R. (2001a). Incorporating second- 
order functional knowledge for better option pricing. In NIPS 13. MIT Press. 61 


Dugas, C., Bengio, Y., Bélisle, F., and Nadeau, C. (2001b). Incorporating second-order func- 
tional knowledge for better option pricing. In T. Leen, T. Dietterich, and V. Tresp, editors, 
Advances in Neural Information Processing Systems 13 (NIPS'00), pages 472-478. MIT Press. 
169 


Dziugaite, G. K., Roy, D. M., and Ghahramani, Z. (2015). Training generative neural networks 


via maximum mean discrepancy optimization. arXiv preprint arXiv:1505.03906. 599 


El Hihi, S. and Bengio, Y. (1996). Hierarchical recurrent neural networks for long-term depen- 
dencies. In NIPS 8. MIT Press. 339, 347 


ww ai bbc. com rH BH BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 631 


Elkahky, A. M., Song, Y., and He, X. (2015). A multi-view deep learning approach for cross 
domain user modeling in recommendation systems. In Proceedings of the 24th International 
Conference on World Wide Web, pages 278—288. 407 


Elman, J. L. (1993). Learning and development in neural networks: The importance of starting 
small. Cognition, 48, 781—799. 278 


Erhan, D., Manzagol, P.-A., Bengio, Y., Bengio, S., and Vincent, P. (2009). The difficulty of 
training deep architectures and the effect of unsupervised pre-training. In AISTATS’2009, 
pages 153-160. 173 


Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., and Bengio, S. (2010). Why 
does unsupervised pre-training help deep learning? J. Machine Learning Res. 451, 453, 454, 
455 


Fahlman, S. E., Hinton, G. E., and Sejnowski, T. J. (1983). Massively parallel architectures for 
AI: NETL, thistle, and Boltzmann machines. In Proceedings of the National Conference on 
Artificial Intelligence AAAI-83. 485, 558 


Fang, H., Gupta, S., Iandola, F., Srivastava, R., Deng, L., Dollár, P., Gao, J., He, X., Mitchell, 
M., Platt, J. C., Zitnick, C. L., and Zweig, G. (2015). From captions to visual concepts and 
back. arXiv:1411.4952. 90 


Farabet, C., LeCun, Y., Kavukcuoglu, K., Culurciello, E., Martini, B., Akselrod, P., and Talay, 
S. (2011). Large-scale FPGA-based convolutional networks. In R. Bekkerman, M. Bilenko, 
and J. Langford, editors, Scaling up Machine Learning: Parallel and Distributed Approaches. 
Cambridge University Press. 446 


Farabet, C., Couprie, C., Najman, L., and LeCun, Y. (2013). Learning hierarchical features 
for scene labeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 
1915-1929. 22, 173, 305 


Fei-Fei, L., Fergus, R., and Perona, P. (2006). One-shot learning of object categories. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 28(4), 594-611. 458 


Finn, C., Tan, X. Y., Duan, Y., Darrell, T., Levine, S., and Abbeel, P. (2015). Learning 
visual feature spaces for robotic manipulation with deep spatial autoencoders. arXiv preprint 
arXiv:1509.06113. 23 


Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of 
Eugenics, T, 179—188. 18, 92 


ww ai bt. com LH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
632 参考 文献 


Fóldiák, P. (1989). Adaptive network for optimal linear feature extraction. In International 
Joint Conference on Neural Networks (IJCNN), volume 1, pages 401—405, Washington 1989. 
IEEE, New York. 420 


Franzius, M., Sprekeler, H., and Wiskott, L. (2007). Slowness and sparseness lead to place, 


head-direction, and spatial-view cells. 422 


Franzius, M., Wilbert, N., and Wiskott, L. (2008). Invariant object recognition with slow feature 
analysis. In Proceedings of the 18th international conference on Artificial Neural Networks, 
Part I, ICANN ’08, pages 961-970, Berlin, Heidelberg. Springer-Verlag. 422 


Frasconi, P., Gori, M., and Sperduti, A. (1997). On the efficient classification of data structures 
by neural networks. In Proc. Int. Joint Conf. on Artificial Intelligence. 340, 341 


Frasconi, P., Gori, M., and Sperduti, A. (1998). A general framework for adaptive processing of 
data structures. IEEE Transactions on Neural Networks, 9(5), 768-786. 340, 341 


Freund, Y. and Schapire, R. E. (1996a). Experiments with a new boosting algorithm. In Machine 
Learning: Proceedings of Thirteenth International Conference, pages 148-156, USA. ACM. 
221 


Freund, Y. and Schapire, R. E. (1996b). Game theory, on-line prediction and boosting. In 
Proceedings of the Ninth Annual Conference on Computational Learning Theory, pages 325- 
332. 221 


Frey, B. J. (1998). Graphical models for machine learning and digital communication. MIT 
Press. 601 


Frey, B. J., Hinton, G. E., and Dayan, P. (1996). Does the wake-sleep algorithm learn good 
density estimators? In D. Touretzky, M. Mozer, and M. Hasselmo, editors, Advances in 
Neural Information Processing Systems 8 (NIPS'95), pages 661-670. MIT Press, Cambridge, 
MA. 556 


Frobenius, G. (1908). Über matrizen aus positiven elementen, s. B. Preuss. Akad. Wiss. Berlin, 


Germany. 507 


Fukushima, K. (1975). Cognitron: A self-organizing multilayered neural network. Biological 
Cybernetics, 20, 121-136. 14, 194, 450 


Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism 
of pattern recognition unaffected by shift in position. Biological Cybernetics, 36, 193-202. 
14, 20, 21, 194, 312 


ww ai bbt.com rH BEL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 633 


Gal, Y. and Ghahramani, Z. (2015). Bayesian convolutional neural networks with Bernoulli 


approximate variational inference. arXiv preprint arXiv:1506.02158. 226 


Gallinari, P., LeCun, Y., Thiria, S., and Fogelman-Soulie, F. (1987). Memoires associatives 
distribuees. In Proceedings of COGNITIVA 87, Paris, La Villette. 439 


Garcia-Duran, A., Bordes, A., Usunier, N., and Grandvalet, Y. (2015). Combining two 
and three-way embeddings models for link prediction in knowledge bases. arXiv preprint 
arXiv:1506.00999. 411 


Garofolo, J. S., Lamel, L. F., Fisher, W. M., Fiscus, J. G., and Pallett, D. S. (1993). Darpa timit 
acoustic-phonetic continous speech corpus cd-rom. nist speech disc 1-1.1. NASA STI/Recon 
Technical Report N, 93, 27403. 389 


Garson, J. (1900). The metric system of identification of criminals, as used in Great Britain 
and Ireland. The Journal of the Anthropological Institute of Great Britain and Ireland, (2), 
177-227. 18 


Gers, F. A., Schmidhuber, J., and Cummins, F. (2000). Learning to forget: Continual prediction 
with LSTM. Neural computation, 12(10), 2451-2471. 348, 351 


Ghahramani, Z. and Hinton, G. E. (1996). The EM algorithm for mixtures of factor analyzers. 
'Technical Report CRG-TR-96-1, Dpt. of Comp. Sci., Univ. of Toronto. 416 


Gillick, D., Brunk, C., Vinyals, O., and Subramanya, A. (2015). Multilingual language processing 
from bytes. arXiv preprint arXiv:1512.00103. 405 


Girshick, R., Donahue, J., Darrell, T., and Malik, J. (2015). Region-based convolutional networks 


for accurate object detection and segmentation. 362 


Giudice, M. D., Manera, V., and Keysers, C. (2009). Programmed to learn? The ontogeny of 
mirror neurons. Dev. Sci., 12(2), 350---363. 559 


Glorot, X., Bordes, A., and Bengio, Y. (2011a). Deep sparse rectifier neural networks. In 
AISTATS'2011. 15, 150, 169, 195, 257 


Glorot, X., Bordes, A., and Bengio, Y. (2011b). Domain adaptation for large-scale sentiment 
classification: A deep learning approach. In ICML’2011. 432 


Glorot, X., Bordes, A., and Bengio, Y. (2011c). Domain adaptation for large-scale sentiment 
classification: A deep learning approach. In ICM ( 1b), pages 97-110. 456 


Goldberger, J., Roweis, S., Hinton, G. E., and Salakhutdinov, R. (2005). Neighbourhood compo- 
nents analysis. In L. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information 
Processing Systems 17 (NIPS'04). MIT Press. 101 


ww ai bbc. com r1 B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
634 参考 文献 


Gong, S., McKenna, S., and Psarrou, A. (2000). Dynamic Vision: From Images to Face Recog- 
nition. Imperial College Press. 142, 442 


Goodfellow, L, Le, Q., Saxe, A., and Ng, A. (2009). Measuring invariances in deep networks. 
In Y. Bengio, D. Schuurmans, C. Williams, J. Lafferty, and A. Culotta, editors, Advances in 
Neural Information Processing Systems 22 (NIPS'09), pages 646-654. 218 


Goodfellow, I., Koenig, N., Muja, M., Pantofaru, C., Sorokin, A., and Takayama, L. (2010). 
Help me help you: Interfaces for personal robots. In Proc. of Human Robot Interaction 
(HRI), Osaka, Japan. ACM Press, ACM Press. 88 


Goodfellow, I., Mirza, M., Xiao, D., Courville, A., and Bengio, Y. (2014a). An empirical 
investigation of catastrophic forgetting in gradient-based neural networks. In ICLR'14. 167 


Goodfellow, I. J. (2010). Technical report: Multidimensional, downsampled convolution for 


autoencoders. Technical report, Université de Montréal. 301 


Goodfellow, I. J. (2014). On distinguishability criteria for estimating generative models. In 


International Conference on Learning Representations, Workshops Track. 530, 597 


Goodfellow, I. J., Courville, A., and Bengio, Y. (2011). Spike-and-slab sparse coding for unsu- 
pervised feature discovery. In NIPS Workshop on Challenges in Learning Hierarchical Models. 
453, 457 


Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout 
networks. In [CML’2013. 167 


Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013b). Maxout 
networks. In ICM ( 1c), pages 1319-1327. 226, 291, 311 














Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013c). Maxout 
networks. Technical Report arXiv:1302.4389, Université de Montréal. 386 


Goodfellow, I. J., Mirza, M., Courville, A., and Bengio, Y. (2013d). Multi-prediction deep 
Boltzmann machines. In NIP ( 1b). 89, 525, 571, 573, 574, 575, 576, 595 


Goodfellow, I. J., Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M., Pascanu, R., 
Bergstra, J., Bastien, F., and Bengio, Y. (2013e). Pylearn2: a machine learning research 
library. arXiv preprint arXiv:1308.4214. 23, 379 


Goodfellow, I. J., Courville, A., and Bengio, Y. (2013f). Scaling up spike-and-slab models for 
unsupervised feature learning. IEEE T. PAMI, pages 1902-1914. 424, 425, 554 


ww ai bbc. com GOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 635 


Goodfellow, I. J., Courville, A., and Bengio, Y. (2013g). Scaling up spike-and-slab models 
for unsupervised feature learning. IEEE Transactions om Pattern Analysis and Machine 
Intelligence, 35(8), 1902-1914. 582 


Goodfellow, I. J., Shlens, J., and Szegedy, C. (2014b). Explaining and harnessing adversarial 
examples. CoRR, abs/1412.6572. 229, 230, 232, 472, 473 


Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, 
A., and Bengio, Y. (2014c). Generative adversarial networks. In NIPS’2014. 463, 587, 596, 
597, 600 


Goodfellow, I. J., Bulatov, Y., Ibarz, J., Arnoud, S., and Shet, V. (2014d). Multi-digit number 
recognition from Street View imagery using deep convolutional neural networks. In Interna- 
tional Conference on Learning Representations. 22, 89, 173, 174, 333, 358, 381 


Goodfellow, I. J., Vinyals, O., and Saxe, A. M. (2015). Qualitatively characterizing neural 
network optimization problems. In International Conference om Learning Representations. 
243, 244, 245, 247 


Goodman, J. (2001). Classes for fast maximum entropy training. In International Conference 
on Acoustics, Speech and Signal Processing (ICASSP), Utah. 396 


Gori, M. and Tesi, A. (1992). On the problem of local minima in backpropagation. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, PAMI-14(1), 76-86. 242 


Gosset, W. S. (1908). The probable error of a mean. Biometrika, 6(1), 1-25. Originally published 
under the pseudonym “Student”. 18 


Gouws, S., Bengio, Y., and Corrado, G. (2014). BiIIBOWA: Fast bilingual distributed represen- 
tations without word alignments. Technical report, arXiv:1410.2455. 405, 458 


Graf, H. P. and Jackel, L. D. (1989). Analog electronic neural network circuits. Circuits and 
Devices Magazine, IEEE, 5(4), 44-49. 383 


Graves, A. (2011). Practical variational inference for neural networks. In NIPS’2011. 207 


Graves, A. (2012). Supervised Sequence Labelling with Recurrent Neural Networks. Studies in 
Computational Intelligence. Springer. 319, 335, 350, 391 


Graves, A. (2013). Generating sequences with recurrent neural networks. "Technical report, 
arXiv:1308.0850. 164, 339, 350, 353, 357 


Graves, A. and Jaitly, N. (2014). Towards end-to-end speech recognition with recurrent neural 
networks. In ICML’2014. 348 


ww ai bbc. com 1 BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
636 参考 文献 


Graves, A. and Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional 
LSTM and other neural network architectures. Neural Networks, 18(5), 602-610. 336 


Graves, A. and Schmidhuber, J. (2009). Offline handwriting recognition with multidimensional 
recurrent neural networks. In D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, editors, 
NIPS’2008, pages 545-552. 336, 348 


Graves, A., Fernández, S., Gomez, F., and Schmidhuber, J. (2006). Connectionist tempo- 
ral classification: Labelling unsegmented sequence data with recurrent neural networks. In 
ICML’2006, pages 369-376, Pittsburgh, USA. 391 


Graves, A., Liwicki, M., Bunke, H., Schmidhuber, J., and Fernandez, S. (2008). Unconstrained 
on-line handwriting recognition with recurrent neural networks. In J. Platt, D. Koller, 
Y. Singer, and S. Roweis, editors, NIPS’2007, pages 571—584. 336 


Graves, A., Mohamed, A., and Hinton, G. (2013). Speech recognition with deep recurrent neural 
networks. In /CASSP'2013, pages 6645-6649. 336, 348, 391 


Graves, A., Wayne, G., and Danihelka, I. (2014). Neural Turing machines. arXiv:1410.5401. 23, 
355 


Grefenstette, E., Hermann, K. M., Suleyman, M., and Blunsom, P. (2015). Learning to transduce 
with unbounded memory. In NIPS’2015. 355 


Greff, K., Srivastava, R. K., Koutnik, J., Steunebrink, B. R., and Schmidhuber, J. (2015). 
LSTM: a search space odyssey. arXiv preprint arXiv:1503.04069. 351 


Gregor, K. and LeCun, Y. (2010a). Emergence of complex-like cells in a temporal product 
network with local receptive fields. Technical report, arXiv:1006.0448. 299 


Gregor, K. and LeCun, Y. (2010b). Learning fast approximations of sparse coding. In L. Bottou 
and M. Littman, editors, Proceedings of the Twenty-seventh International Conference on 
Machine Learning (ICML-10). ACM. 557 


Gregor, K., Danihelka, I., Mnih, A., Blundell, C., and Wierstra, D. (2014). Deep autoregressive 
networks. In International Conference on Machine Learning (ICML’2014). 591 


Gregor, K., Danihelka, I., Graves, A., and Wierstra, D. (2015). DRAW: A recurrent neural 
network for image generation. arXiv preprint arXiv:1502.04623. 595 


Gretton, A., Borgwardt, K. M., Rasch, M. J., Schólkopf, B., and Smola, A. (2012). A kernel 
two-sample test. The Journal of Machine Learning Research, 13(1), 723-773. 600 


ww ai bbc. com (HL BH BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 637 


Guillaume Desjardins, Karen Simonyan, R. P. K. K. (2015). Natural neural networks. Technical 
report, arXiv:1507.00210. 272 


Gulcehre, C. and Bengio, Y. (2013). Knowledge matters: Importance of prior information for 
optimization. Technical Report arXiv:1301.4083, Universite de Montreal. 22 


Guo, H. and Gelfand, S. B. (1992). Classification trees with neural network feature extraction. 
Neural Networks, IEEE Transactions on, 3(6), 923-933. 382 


Gupta, S., Agrawal, A., Gopalakrishnan, K., and Narayanan, P. (2015). Deep learning with 
limited numerical precision. CoRR, abs/1502.02551. 383 


Gutmann, M. and Hyvarinen, A. (2010). Noise-contrastive estimation: A new estimation prin- 
ciple for unnormalized statistical models. In Proceedings of The Thirteenth International 
Conference on Artificial Intelligence and Statistics (AISTATS’10). 528 


Hadsell, R., Sermanet, P., Ben, J., Erkan, A., Han, J., Muller, U., and LeCun, Y. (2007). Online 
learning for offroad robots: Spatial label propagation to learn long-range traversability. In 
Proceedings of Robotics: Science and Systems, Atlanta, GA, USA. 385 


Hajnal, A., Maass, W., Pudlak, P., Szegedy, M., and Turan, G. (1993). Threshold circuits of 
bounded depth. J. Comput. System. Sci., 46, 129-154. 172 


Hástad, J. (1986). Almost optimal lower bounds for small depth circuits. In Proceedings of 
the 18th annual ACM Symposium on Theory of Computing, pages 6-20, Berkeley, California. 
ACM Press. 172 


Hástad, J. and Goldmann, M. (1991). On the power of small-depth threshold circuits. Compu- 
tational Complexity, 1, 113-129. 172 


Hastie, T., Tibshirani, R., and Friedman, J. (2001). The elements of statistical learning: data 


mining, inference and prediction. Springer Series in Statistics. Springer Verlag. 126 


He, K., Zhang, X., Ren, S., and Sun, J. (2015). Delving deep into rectifiers: Surpassing human- 
level performance on ImageNet classification. arXiv preprint arXiv:1502.01852. 23, 167 


Hebb, D. O. (1949). The Organization of Behavior. Wiley, New York. 13, 15, 559 


Henaff, M., Jarrett, K., Kavukcuoglu, K., and LeCun, Y. (2011). Unsupervised learning of 
sparse features for scalable audio classification. In [SMIR’11. 446 


Henderson, J. (2003). Inducing history representations for broad coverage statistical parsing. In 
HLT-NAACL, pages 103-110. 405 


ww ai bbc. com GOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
638 参考 文献 


Henderson, J. (2004). Discriminative training of a neural network statistical parser. In Pro- 
ceedings of the 42nd Annual Meeting om Association for Computational Linguistics, page 95. 
405 


Henniges, M., Puertas, G., Bornschein, J., Eggert, J., and Lücke, J. (2010). Binary sparse 
coding. In Latent Variable Analysis and Signal Separation, pages 450—457. Springer. 545 


Herault, J. and Ans, B. (1984). Circuits neuronaux à synapses modifiables: Décodage de mes- 
sages composites par apprentissage non supervisé. Comptes Rendus de l' Académie des Sci- 
ences, 299(III-13), 525---528. 418 


Hinton, G., Deng, L., Dahl, G. E., Mohamed, A., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, 
P., Sainath, T., and Kingsbury, B. (2012a). Deep neural networks for acoustic modeling in 
speech recognition. IEEE Signal Processing Magazine, 29(6), 82-97. 22, 89, 390 


Hinton, G., Vinyals, O., and Dean, J. (2015). Distilling the knowledge in a neural network. 
arXiv preprint arXiv:1508.02581. 380 


Hinton, G. E. (1989). Connectionist learning procedures. Artificial Intelligence, 40, 185—234. 
420 


Hinton, G. E. (1990). Mapping part-whole hierarchies into connectionist networks. Artificial 
Intelligence, A6(1), 47-75. 355 


Hinton, G. E. (1999). Products of experts. In Proceedings of the Ninth International Conference 
on Artificial Neural Networks (ICANN), volume 1, pages 1-6, Edinburgh, Scotland. IEE. 485 


Hinton, G. E. (2000). Training products of experts by minimizing contrastive divergence. Tech- 
nical Report GCNU TR 2000-004, Gatsby Unit, University College London. 518, 577 


Hinton, G. E. (2006). To recognize shapes, first learn to generate images. Technical Report 
UTML TR 2006-003, University of Toronto. 450 


Hinton, G. E. (2007a). How to do backpropagation in a brain. Invited talk at the NIPS’2007 
Deep Learning Workshop. 559 


Hinton, G. E. (2007b). Learning multiple layers of representation. Trends in cognitive sciences, 
11(10), 428-434. 563 


Hinton, G. E. (2010). A practical guide to training restricted Boltzmann machines. Technical 
Report UTML TR 2010-003, Comp. Sc., University of Toronto. 518 


Hinton, G. E. (2012). Tutorial on deep learning. IPAM Graduate Summer School: Deep 


Learning, Feature Learning. 261 


ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 639 


Hinton, G. E. and Ghahramani, Z. (1997). Generative models for discovering sparse distributed 


representations. Philosophical Transactions of the Royal Society of London. 128 


Hinton, G. E. and McClelland, J. L. (1988). Learning representations by recirculation. In 
NIPS’1987, pages 358-366. 428 


Hinton, G. E. and Roweis, S. (2003). Stochastic neighbor embedding. In NIPS’2002. 442 


Hinton, G. E. and Salakhutdinov, R. (2006). Reducing the dimensionality of data with neural 
networks. Science, 313(5786), 504—507. 434, 447, 450, 451, 453 


Hinton, G. E. and Sejnowski, T. J. (1986). Learning and relearning in Boltzmann machines. 
In D. E. Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing, volume 1, 
chapter 7, pages 282-317. MIT Press, Cambridge. 485, 558 


Hinton, G. E. and Sejnowski, T. J. (1999). Unsupervised learning: foundations of neural com- 


putation. MIT press. 461 


Hinton, G. E. and Shallice, T. (1991). Lesioning an attractor network: investigations of acquired 


dyslexia. Psychological review, 98(1), 74. 12 


Hinton, G. E. and Zemel, R. S. (1994). Autoencoders, minimum description length, and 
Helmholtz free energy. In NIPS’1993. 428 


Hinton, G. E., Sejnowski, T. J., and Ackley, D. H. (1984a). Boltzmann machines: Constraint 
satisfaction networks that learn. Technical Report TR-CMU-CS-84-119, Carnegie-Mellon 
University, Dept. of Computer Science. 485 


Hinton, G. E., Sejnowski, T. J., and Ackley, D. H. (1984b). Boltzmann machines: Constraint 
satisfaction networks that learn. Technical Report TR-CMU-CS-84-119, Carnegie-Mellon 
University, Dept. of Computer Science. 558 


Hinton, G. E., McClelland, J., and Rumelhart, D. (1986). Distributed representations. In D. E. 
Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing: Explorations in the 
Microstructure of Cognition, volume 1, pages 77-109. MIT Press, Cambridge. 16, 194, 448 


Hinton, G. E., Revow, M., and Dayan, P. (1995a). Recognizing handwritten digits using mixtures 
of linear models. In G. Tesauro, D. Touretzky, and T. Leen, editors, Advances im Neural 
Information Processing Systems 7 (NIPS'94), pages 1015-1022. MIT Press, Cambridge, MA. 
416 


Hinton, G. E., Dayan, P., Frey, B. J., and Neal, R. M. (1995b). The wake-sleep algorithm for 
unsupervised neural networks. Science, 268, 1558-1161. 430, 556 


ww ai bbc. com rH B BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
640 参考 文献 


Hinton, G. E., Dayan, P., and Revow, M. (1997). Modelling the manifolds of images of hand- 
written digits. IEEE Transactions on Neural Networks, 8, 65-74. 425 


Hinton, G. E., Welling, M., Teh, Y. W., and Osindero, S. (2001). A new view of ICA. In 
Proceedings of 3rd International Conference on Independent Component Analysis and Blind 
Signal Separation (ICA’01), pages 746-751, San Diego, CA. 418 


Hinton, G. E., Osindero, S., and Teh, Y. (2006a). A fast learning algorithm for deep belief nets. 
Neural Computation, 18, 1527-1554. 13, 17, 21, 505, 563, 564 


Hinton, G. E., Osindero, S., and Teh, Y.-W. (2006b). A fast learning algorithm for deep belief 
nets. Neural Computation, 18, 1527-1554. 125, 450, 451 


Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, L, and Salakhutdinov, R. (2012b). 
Improving neural networks by preventing co-adaptation of feature detectors. Technical report, 
arXiv:1207.0580. 204, 225 


Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, L, and Salakhutdinov, R. (2012c). 
Improving neural networks by preventing co-adaptation of feature detectors. Technical report, 
arXiv:1207.0580. 228 


Hinton, G. E., Vinyals, O., and Dean, J. (2014). Dark knowledge. Invited talk at the BayLearn 
Bay Area Machine Learning Symposium. 380 


Hochreiter, S. (1991a). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, 
T.U. München. 342, 343 


Hochreiter, S. (1991b). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, 


Institut für Informatik, Lehrstuhl Prof. Brauer, Technische Universitát München. 16 


Hochreiter, S. and Schmidhuber, J. (1995). Simplifying neural nets by discovering flat minima. 
In Advances in Neural Information Processing Systems 7, pages 529-536. MIT Press. 208 


Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 
9(8), 1735-1780. 16, 348, 350 


Hochreiter, S., Bengio, Y., and Frasconi, P. (2001). Gradient flow in recurrent nets: the difficulty 
of learning long-term dependencies. In J. Kolen and S. Kremer, editors, Field Guide to 
Dynamical Recurrent Networks. IEEE Press. 350 


Holi, J. L. and Hwang, J.-N. (1993). Finite precision error analysis of neural network hardware 
implementations. Computers, IEEE Transactions on, 42(3), 281-290. 383 


ww ai bbc. com (HL BL BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 641 


Holt, J. L. and Baker, T. E. (1991). Back propagation simulations using limited precision 
calculations. In Neural Networks, 1991., IJCNN-91-Seattle International Joint Conference 
on, volume 2, pages 121-126. IEEE. 383 


Hornik, K., Stinchcombe, M., and White, H. (1989). Multilayer feedforward networks are uni- 
versal approximators. Neural Networks, 2, 359—366. 171 


Hornik, K., Stinchcombe, M., and White, H. (1990). Universal approximation of an unknown 
mapping and its derivatives using multilayer feedforward networks. Neural networks, 3(5), 
551-560. 171 


Hsu, F.-H. (2002). Behind Deep Blue: Building the Computer That Defeated the World Chess 
Champion. Princeton University Press, Princeton, NJ, USA. 2 


Huang, F. and Ogata, Y. (2002). Generalized pseudo-likelihood estimates for Markov random 
fields on lattice. Annals of the Institute of Statistical Mathematics, 54(1), 1-18. 524 


Huang, P.-S., He, X., Gao, J., Deng, L., Acero, A., and Heck, L. (2013). Learning deep struc- 
tured semantic models for web search using clickthrough data. In Proceedings of the 22nd 
ACM international conference on Conference on information & knowledge management, pages 
2333-2338. ACM. 407 


Hubel, D. and Wiesel, T. (1968). Receptive fields and functional architecture of monkey striate 
cortex. Journal of Physiology (London), 195, 215-243. 310 


Hubel, D. H. and Wiesel, T. N. (1959). Receptive fields of single neurons in the cat's striate 
cortex. Journal of Physiology, 148, 574-591. 310 


Hubel, D. H. and Wiesel, T. N. (1962). Receptive fields, binocular interaction, and functional 
architecture in the cat’s visual cortex. Journal of Physiology (London), 160, 106—154. 310 


Huszar, F. (2015). How (not) to train your generative model: schedule sampling, likelihood, 
adversary? arXiv:1511.05101. 595 


Hutter, F., Hoos, H., and Leyton-Brown, K. (2011). Sequential model-based optimization for 
general algorithm configuration. In LION-5. Extended version as UBC Tech report TR-2010- 
10. 370 


Hyotyniemi, H. (1996). Turing machines are recurrent neural networks. In STeP'96, pages 
13-24. 324 


Hyvárinen, A. (1999). Survey on independent component analysis. Neural Computing Surveys, 
2, 94-128. 418 


ww ai bbt.com BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
642 参考 文献 


Hyvárinen, A. (2005a). Estimation of non-normalized statistical models using score matching. 
Journal of Machine Learning Research, 6, 695—709. 436 


Hyvárinen, A. (2005b). Estimation of non-normalized statistical models using score matching. 
J. Machine Learning Res., 6. 525 


Hyvárinen, A. (2007a). Connections between score matching, contrastive divergence, and pseu- 
dolikelihood for continuous-valued variables. IEEE Transactions on Neural Networks, 18, 
1529-1531. 526 


Hyvárinen, A. (2007b). Some extensions of score matching. Computational Statistics and Data 
Analysis, 51, 2499-2512. 526 


Hyvárinen, A. and Pajunen, P. (1999). Nonlinear independent component analysis: Existence 
and uniqueness results. Neural Networks, 12(3), 429-439. 419 


Hyvárinen, A., Karhunen, J., and Oja, E. (2001). Independent Component Analysis. Wiley- 


Interscience. 418 


Hyvárinen, A., Hurri, J., and Hoyer, P. O. (2009). Natural Image Statistics: A probabilistic 


approach to early computational vision. Springer-Verlag. 315 


Iba, Y. (2001). Extended ensemble Monte Carlo. International Journal of Modern Physics, 
C12, 623-656. 513 


Inayoshi, H. and Kurita, T. (2005). Improved generalization by adding both auto-association and 
hidden-layer noise to neural-network-based-classifiers. IEEE Workshop om Machine Learning 


for Signal Processing, pages 141-—146. 439 


Ioffe, S. and Szegedy, C. (2015). Batch normalization: Accelerating deep network training by 
reducing internal covariate shift. 88, 270, 272 


Jacobs, R. A. (1988). Increased rates of convergence through learning rate adaptation. Neural 
networks, 1(4), 295-307. 260 


Jacobs, R. A., Jordan, M. L, Nowlan, S. J., and Hinton, G. E. (1991). Adaptive mixtures of 
local experts. Neural Computation, 3, 79-87. 163, 382 


Jaeger, H. (2003). Adaptive nonlinear system identification with echo state networks. In Ad- 


vances in Neural Information Processing Systems 15. 344 


Jaeger, H. (2007a). Discovering multiscale dynamical features with hierarchical echo state net- 


works. Technical report, Jacobs University. 339 


ww ai bbc. com r1 HL HB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 643 


Jaeger, H. (2007b). Echo state network. Scholarpedia, 2(9), 2330. 344 


Jaeger, H. (2012). Long short-term memory in echo state networks: Details of a simulation 


study. Technical report, Technical report, Jacobs University Bremen. 345 


Jaeger, H. and Haas, H. (2004). Harnessing nonlinearity: Predicting chaotic systems and saving 


energy in wireless communication. Science, 304(5667), 78-80. 21, 344 


Jaeger, H., Lukosevicius, M., Popovici, D., and Siewert, U. (2007). Optimization and applica- 
tions of echo state networks with leaky- integrator neurons. Neural Networks, 20(3), 335—352. 
347 


Jain, V., Murray, J. F., Roth, F., Turaga, S., Zhigulin, V., Briggman, K. L., Helmstaedter, 
M. N., Denk, W., and Seung, H. S. (2007). Supervised learning of image restoration with 
convolutional networks. In Computer Vision, 2007. ICCV 2007. IEEE 11th International 
Conference on, pages 1-8. IEEE. 305 


Jaitly, N. and Hinton, G. (2011). Learning a better representation of speech soundwaves using 
restricted Boltzmann machines. In Acoustics, Speech and Signal Processing (ICASSP), 2011 
IEEE International Conference on, pages 5884-5887. IEEE. 389 


Jaitly, N. and Hinton, G. E. (2013). Vocal tract length perturbation (VTLP) improves speech 
recognition. In /CML'2013. 206 


Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009a). What is the best multi-stage 
architecture for object recognition? In Proc. International Conference on Computer Vision 
(ICCV'09), pages 2146-2153. IEEE. 15, 166 


Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009b). What is the best multi-stage 
architecture for object recognition? In ICC'V’09. 20, 21, 150, 195, 309, 446 


Jarzynski, C. (1997). Nonequilibrium equality for free energy differences. Phys. Rev. Lett., T8, 
2690-2693. 532, 535 


Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press. 47 


Jean, S., Cho, K., Memisevic, R., and Bengio, Y. (2014). On using very large target vocabulary 


for neural machine translation. arXiv:1412.2007. 402 


Jelinek, F. and Mercer, R. L. (1980). Interpolated estimation of Markov source parameters from 
sparse data. In E. S. Gelsema and L. N. Kanal, editors, Pattern Recognition in Practice. 
North-Holland, Amsterdam. 392 


ww ai bb. com r1 HL BH BLBL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
644 参考 文献 


Jia, Y. (2013). Caffe: An open source convolutional architecture for fast feature embedding. 
http://caffe.berkeleyvision.org/. 23, 182 


Jia, Y., Huang, C., and Darrell, T. (2012). Beyond spatial pyramids: Receptive field learning 
for pooled image features. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE 
Conference on, pages 3370-3377. IEEE. 292 


Jim, K.-C., Giles, C. L., and Horne, B. G. (1996). An analysis of noise in recurrent neural 
networks: convergence and generalization. IEEE Transactions on Neural Networks, 7(6), 
1424-1438. 207 


Jordan, M. I. (1998). Learning in Graphical Models. Kluwer, Dordrecht, Netherlands. 16 


Joulin, A. and Mikolov, T. (2015). Inferring algorithmic patterns with stack-augmented recurrent 
nets. arXiv preprint arXiv:1503.01007. 355 


Jozefowicz, R., Zaremba, W., and Sutskever, I. (2015). An empirical evaluation of recurrent 
network architectures. In [CML ’2015. 259, 350, 351 


Judd, J. S. (1989). Neural Network Design and the Complexity of Learning. MIT press. 249 


Jutten, C. and Herault, J. (1991). Blind separation of sources, part I: an adaptive algorithm 


based on neuromimetic architecture. Signal Processing, 24, 1-10. 418 


Kahou, S. E., Pal, C., Bouthillier, X., Froumenty, P., Giilcehre, c., Memisevic, R., Vincent, 
P., Courville, A., Bengio, Y., Ferrari, R. C., Mirza, M., Jean, S., Carrier, P. L., Dauphin, 
Y., Boulanger-Lewandowski, N., Aggarwal, A., Zumer, J., Lamblin, P., Raymond, J.-P., 
Desjardins, G., Pascanu, R., Warde-Farley, D., Torabi, A., Sharma, A., Bengio, E., Côté, 
M., Konda, K. R., and Wu, Z. (2013). Combining modality specific deep neural networks for 
emotion recognition in video. In Proceedings of the 15th ACM on International Conference 


on Multimodal Interaction. 173 


Kalchbrenner, N. and Blunsom, P. (2013). Recurrent continuous translation models. In 
EMNLP’2013. 402 


Kalchbrenner, N., Danihelka, I., and Graves, A. (2015). Grid long short-term memory. arXiv 
preprint arXiv:1507.01526. 337 


Kamyshanska, H. and Memisevic, R. (2015). The potential energy of an autoencoder. IEEE 


Transactions on Pattern Analysis and Machine Intelligence. 438 


Karpathy, A. and Li, F.-F. (2015). Deep visual-semantic alignments for generating image de- 
scriptions. In CVPR’2015. arXiv:1412.2306. 90 


ww ai bbc. com (HL BH BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 645 


Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., and Fei-Fei, L. (2014). Large- 


scale video classification with convolutional neural networks. In CVPR. 18 


Karush, W. (1939). Minima of Functions of Several Variables with Inequalities as Side Con- 
straints. Master's thesis, Dept. of Mathematics, Univ. of Chicago. 85 


Katz, S. M. (1987). Estimation of probabilities from sparse data for the language model compo- 
nent of a speech recognizer. IEEE Transactions on Acoustics, Speech, and Signal Processing, 
ASSP-35(3), 400-401. 392 


Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2008). Fast inference in sparse coding algo- 
rithms with applications to object recognition. Technical report, Computational and Biolog- 
ical Learning Lab, Courant Institute, NYU. Tech Report CBLL-TR-2008-12-01. 446 


Kavukcuoglu, K., Ranzato, M.-A., Fergus, R., and LeCun, Y. (2009). Learning invariant features 
through topographic filter maps. In CVPR’2009. 446 


Kavukcuoglu, K., Sermanet, P., Boureau, Y.-L., Gregor, K., Mathieu, M., and LeCun, Y. (2010). 


Learning convolutional feature hierarchies for visual recognition. In NIPS’2010. 309, 446 


Kelley, H. J. (1960). Gradient theory of optimal flight paths. ARS Journal, 30(10), 947—954. 
194 


Khan, F., Zhu, X., and Mutlu, B. (2011). How do humans teach: On curriculum learning and 
teaching dimension. In Advances in Neural Information Processing Systems 24 (NIPS’11), 
pages 1449-1457. 279 


Kim, S. K., McAfee, L. C., McMahon, P. L., and Olukotun, K. (2009). A highly scalable 
restricted Boltzmann machine FPGA implementation. In Field Programmable Logic and 
Applications, 2009. FPL 2009. International Conference on, pages 367-372. IEEE. 383 


Kindermann, R. (1980). Markov Random Fields and Their Applications (Contemporary Math- 
ematics ; V. 1). American Mathematical Society. 481 


Kingma, D. and Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint 
arXiv:1412.6980. 261 


Kingma, D. and LeCun, Y. (2010a). Regularized estimation of image statistics by score matching. 
In NIPS'2010. 437 


Kingma, D. and LeCun, Y. (2010b). Regularized estimation of image statistics by score match- 
ing. In J. Lafferty, C. K. I. Williams, J. Shawe-Taylor, R. Zemel, and A. Culotta, editors, 
Advances in Neural Information Processing Systems 23, pages 1126-1134. 527 


ww ai bbt.com (1 HL B BL BL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
646 参考 文献 


Kingma, D., Rezende, D., Mohamed, S., and Welling, M. (2014). Semi-supervised learning with 
deep generative models. In NIPS’2014. 362 


Kingma, D. P. (2013). Fast gradient-based inference with continuous latent variable models in 
auxiliary form. Technical report, arxiv:1306.0733. 587, 593 


Kingma, D. P. and Welling, M. (2014a). Auto-encoding variational bayes. In Proceedings of the 
International Conference on Learning Representations (ICLR). 557, 587, 596 


Kingma, D. P. and Welling, M. (2014b). Efficient gradient-based inference through transforma- 


tions between bayes nets and neural nets. Technical report, arxiv:1402.0480. 587 


Kirkpatrick, S., Jr., C. D. G., , and Vecchi, M. P. (1983). Optimization by simulated annealing. 
Science, 220, 671-680. 278 


Kiros, R., Salakhutdinov, R., and Zemel, R. (2014a). Multimodal neural language models. In 
ICML’2014. 90 


Kiros, R., Salakhutdinov, R., and Zemel, R. (2014b). Unifying visual-semantic embeddings with 
multimodal neural language models. arXiv:1411.2539 [cs.LG]. 90, 348 


Klementiev, A., Titov, L, and Bhattarai, B. (2012). Inducing crosslingual distributed represen- 
tations of words. In Proceedings of COLING 2012. 405, 458 


Knowles-Barley, S., Jones, T. R., Morgan, J., Lee, D., Kasthuri, N., Lichtman, J. W., and 
Pfister, H. (2014). Deep learning for the connectome. GPU Technology Conference. 24 


Koller, D. and Friedman, N. (2009). Probabilistic Graphical Models: Principles and Techniques. 
MIT Press. 495, 505, 550 


Konig, Y., Bourlard, H., and Morgan, N. (1996). REMAP: Recursive estimation and maxi- 
mization of a posteriori probabilities — application to transition-based connectionist speech 
recognition. In D. Touretzky, M. Mozer, and M. Hasselmo, editors, Advances in Neural In- 
formation Processing Systems 8 (NIPS’95). MIT Press, Cambridge, MA. 389 


Koren, Y. (2009). The BellKor solution to the Netflix grand prize. 221, 407 


Kotzias, D., Denil, M., de Freitas, N., and Smyth, P. (2015). From group to individual labels 
using deep features. In ACM SIGKDD. 93 


Koutnik, J., Greff, K., Gomez, F., and Schmidhuber, J. (2014). A clockwork RNN. In 
ICML’2014. 347 


Koéisky, T., Hermann, K. M., and Blunsom, P. (2014). Learning Bilingual Word Representations 
by Marginalizing Alignments. In Proceedings of ACL. 403 


ww ai bbc. com rH E BL EB B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 647 


Krause, O., Fischer, A., Glasmachers, T., and Igel, C. (2013). Approximation properties of 
DBNs with binary hidden units and real-valued visible units. In [CML’2013. 471 


Krizhevsky, A. (2010). Convolutional deep belief networks on CIFAR-10. Technical report, Uni- 
versity of Toronto. Unpublished Manuscript: http://www.cs.utoronto.ca/ kriz/conv-cifar10- 
aug2010.pdf. 379 


Krizhevsky, A. and Hinton, G. (2009). Learning multiple layers of features from tiny images. 
Technical report, University of Toronto. 18, 476 


Krizhevsky, A. and Hinton, G. E. (2011). Using very deep autoencoders for content-based image 
retrieval. In ESANN. 447 


Krizhevsky, A., Sutskever, I., and Hinton, G. (2012a). ImageNet classification with deep convo- 
lutional neural networks. In NIJPS’2012. 20, 21, 88, 173, 316 


Krizhevsky, A., Sutskever, L, and Hinton, G. (2012b). ImageNet classification with deep 
convolutional neural networks. In Advances in Neural Information Processing Systems 25 
(NIPS'2012). 22, 385, 388 


Krueger, K. A. and Dayan, P. (2009). Flexible shaping: how learning in small steps helps. 
Cognition, 110, 380-394. 278 


Kuhn, H. W. and Tucker, A. W. (1951). Nonlinear programming. In Proceedings of the Second 
Berkeley Symposium on Mathematical Statistics and Probability, pages 481—492, Berkeley, 
Calif. University of California Press. 85 


Kumar, A., Irsoy, O., Ondruska, P., Iyyer, M., Bradbury, J., Gulrajani, L, and Socher, R. 
(2015a). Ask me anything: Dynamic memory networks for natural language processing. 
Technical report, arXiv:1506.07285. 355 


Kumar, A., Irsoy, O., Su, J., Bradbury, J., English, R., Pierce, B., Ondruska, P., Iyyer, M., 
Gulrajani, I., and Socher, R. (2015b). Ask me anything: Dynamic memory networks for 
natural language processing. arXiv:1506.07285. 411 


Kumar, M. P., Packer, B., and Koller, D. (2010). Self-paced learning for latent variable models. 
In J. Lafferty, C. K. I. Williams, J. Shawe-Taylor, R. Zemel, and A. Culotta, editors, Advances 
in Neural Information Processing Systems 23, pages 1189-1197. 278 


Lang, K. J. and Hinton, G. E. (1988). The development of the time-delay neural network 
architecture for speech recognition. Technical Report CMU-CS-88-152, Carnegie-Mellon Uni- 
versity. 312, 318, 346 


ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
648 参考 文献 


Lang, K. J., Waibel, A. H., and Hinton, G. E. (1990). A time-delay neural network architecture 
for isolated word recognition. Neural networks, 3(1), 23-43. 318 


Langford, J. and Zhang, T. (2008). The epoch-greedy algorithm for contextual multi-armed 
bandits. In NIPS’2008, pages 1096---1103. 408 


Lappalainen, H., Giannakopoulos, X., Honkela, A., and Karhunen, J. (2000). Nonlinear inde- 
pendent component analysis using ensemble learning: Experiments and discussion. In Proc. 
ICA. Citeseer. 419 


Larochelle, H. and Bengio, Y. (2008a). Classification using discriminative restricted Boltzmann 
machines. In ICM ( 1a), pages 536-543. 218, 452 


Larochelle, H. and Bengio, Y. (2008b). Classification using discriminative restricted Boltzmann 
machines. In ICML’2008. 585, 609 


Larochelle, H. and Hinton, G. E. (2010). Learning to combine foveal glimpses with a third- 
order Boltzmann machine. In Advances in Neural Information Processing Systems 23, pages 
1243-1251. 312 


Larochelle, H. and Murray, I. (2011). The Neural Autoregressive Distribution Estimator. In 
AISTATS'2011. 601, 603, 604 


Larochelle, H., Erhan, D., and Bengio, Y. (2008). Zero-data learning of new tasks. In AAAI 
Conference on Artificial Intelligence. 209, 458 


Larochelle, H., Bengio, Y., Louradour, J., and Lamblin, P. (2009). Exploring strategies for 
training deep neural networks. In JML ( 1), pages 1-40. 454 


Lasserre, J. A., Bishop, C. M., and Minka, T. P. (2006). Principled hybrids of generative 
and discriminative models. In Proceedings of the Computer Vision and Pattern Recognition 
Conference (CVPR’06), pages 87-94, Washington, DC, USA. IEEE Computer Society. 209, 
217 


Le, Q., Ngiam, J., Chen, Z., hao Chia, D. J., Koh, P. W., and Ng, A. (2010). Tiled convolutional 
neural networks. In J. Lafferty, C. K. I. Williams, J. Shawe- Taylor, R. Zemel, and A. Culotta, 
editors, Advances in Neural Information Processing Systems 23 (NIPS'10), pages 1279-1287. 
299 


Le, Q., Ranzato, M., Monga, R., Devin, M., Corrado, G., Chen, K., Dean, J., and Ng, A. (2012). 
Building high-level features using large scale unsupervised learning. In ICML’2012. 20, 21 


ww ai bbc. com (HL HL BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 649 


Le Roux, N. and Bengio, Y. (2007). Representational power of restricted Boltzmann machines 
and deep belief networks. Technical Report 1294, Département d'Informatique et de Recherche 


Opérationnelle, Université de Montréal. 471 


Le Roux, N. and Bengio, Y. (2008). Representational power of restricted Boltzmann machines 
and deep belief networks. Neural Computation, 20(6), 1631-1649. 559 


Le Roux, N., Bengio, Y., and Fitzgibbon, A. (2011). Improving first and second-order methods 
by modeling uncertainty. In Optimization for Machine Learning. MIT Press. Eds. S. Sra, S. 
Nowozin and S.J. Wright. 269 


LeCun, Y. (1985). Une procédure d'apprentissage pour Réseau à seuil assymétrique. In Cogni- 
tiva 85: A la Frontière de l’Intelligence Artificielle, des Sciences de la Connaissance et des 
Neurosciences, pages 599—604, Paris 1985. CESTA, Paris. 194 


LeCun, Y. (1986). Learning processes in an asymmetric threshold network. In E. Bienenstock, 
F. Fogelman-Soulié, and G. Weisbuch, editors, Disordered Systems and Biological Organiza- 
tion, pages 233-240. Springer-Verlag, Berlin, Les Houches 1985. 297 


LeCun, Y. (1987). Modéles connexionistes de l'apprentissage. Ph.D. thesis, Université de Paris 
VI. 16, 428, 439 


LeCun, Y. (1989). Generalization and network design strategies. Technical Report CRG-TR- 
89-4, University of Toronto. 280, 297 


LeCun, Y. and Cortes, C. (1998). The mnist database of handwritten digits. 264 


LeCun, Y., Jackel, L. D., Boser, B., Denker, J. S., Graf, H. P., Guyon, L, Henderson, D., 
Howard, R. E., and Hubbard, W. (1989). Handwritten digit recognition: Applications of 
neural network chips and automatic learning. IEEE Communications Magazine, 27(11), 41— 
46. 313 


LeCun, Y., Bottou, L., Orr, G. B., and Müller, K. (1998a). Efficient backprop. In Neural 
Networks, Tricks of the Trade. 364 


LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998b). Gradient based learning applied to 
document recognition. Proc. IEEE. 14, 16, 18, 21 


LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (2001). Gradient-based learning applied 
to document recognition. In S. Haykin and B. Kosko, editors, Intelligent Signal Processing, 
pages 306-351. IEEE Press. 316, 389, 391 


ww ai bbc. com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
650 参考 文献 


LeCun, Y., Kavukcuoglu, K., and Farabet, C. (2010). Convolutional networks and applications in 
vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium 
on, pages 253-256. IEEE. 316 


L'Ecuyer, P. (1994). Efficiency improvement and variance reduction. In Proceedings of the 1994 
Winter Simulation Conference, pages 122---132. 588 


Lee, C.-Y., Xie, S., Gallagher, P., Zhang, Z., and Tu, Z. (2014). Deeply-supervised nets. arXiv 
preprint arXiv:1409.5185. 277 


Lee, H., Battle, A., Raina, R., and Ng, A. (2007). Efficient sparse coding algorithms. In 
B. Schólkopf, J. Platt, and T. Hoffman, editors, Advances in Neural Information Processing 
Systems 19 (NIPS'06), pages 801-808. MIT Press. 543 


Lee, H., Ekanadham, C., and Ng, A. (2008). Sparse deep belief net model for visual area V2. 
In NIPS'07. 218 


Lee, H., Grosse, R., Ranganath, R., and Ng, A. Y. (2009). Convolutional deep belief net- 
works for scalable unsupervised learning of hierarchical representations. In L. Bottou and 
M. Littman, editors, Proceedings of the Twenty-sixth International Conference on Machine 
Learning (ICML’09). ACM, Montreal, Canada. 309, 582, 583 


Lee, Y. J. and Grauman, K. (2011). Learning the easy things first: self-paced visual category 
discovery. In CVPR'2011. 278 


Leibniz, G. W. (1676). Memoir using the chain rule. (Cited in TMME 7:2&3 p 321-332, 2010). 
193 


Lenat, D. B. and Guha, R. V. (1989). Building large knowledge-based systems; representation 
and inference in the Cyc project. Addison-Wesley Longman Publishing Co., Inc. 2 


Leshno, M., Lin, V. Y., Pinkus, A., and Schocken, S. (1993). Multilayer feedforward networks 
with a nonpolynomial activation function can approximate any function. Neural Networks, 


6, 861---867. 171, 172 


Levenberg, K. (1944). A method for the solution of certain non-linear problems in least squares. 


Quarterly Journal of Applied Mathematics, II(2), 164—168. 265 


L'Hópital, G. F. A. (1696). Analyse des infiniment petits, pour l'intelligence des lignes courbes. 
Paris: L'Imprimerie Royale. 193 


Li, Y., Swersky, K., and Zemel, R. S. (2015). Generative moment matching networks. CoRR, 
abs/1502.02761. 599 


ww ai bbc. com rH B BL BL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 651 


Lin, T., Horne, B. G., Tino, P., and Giles, C. L. (1996). Learning long-term dependencies is not 
as difficult with NARX recurrent neural networks. IEEE Transactions on Neural Networks, 
7(6), 1329-1338. 346 


Lin, Y., Liu, Z., Sun, M., Liu, Y., and Zhu, X. (2015). Learning entity and relation embeddings 
for knowledge graph completion. In Proc. AAAI’15. 411 


Linde, N. (1992). 'The machine that changed the world, episode 3. Documentary miniseries. 2 


Lindsey, C. and Lindblad, T. (1994). Review of hardware neural networks: a user' s perspective. 
In Proc. Third Workshop om Neural Networks: From Biology to High Energy Physics, pages 
195---202, Isola d'Elba, Italy. 383 


Linnainmaa, S. (1976). Taylor expansion of the accumulated rounding error. BIT Numerical 
Mathematics, 16(2), 146-160. 194 


LISA (2008). Deep learning tutorials: Restricted Boltzmann machines. Technical report, LISA 
Lab, Université de Montréal. 500 


Long, P. M. and Servedio, R. A. (2010). Restricted Boltzmann machines are hard to approxi- 
mately evaluate or simulate. In Proceedings of the 27th International Conference on Machine 
Learning (ICML’10). 560 


Lotter, W., Kreiman, G., and Cox, D. (2015). Unsupervised learning of visual structure using 


predictive generative networks. arXiv preprint arXiv:1511.06380. 463, 464 


Lovelace, A. (1842). Notes upon L. F. Menabrea’s “Sketch of the Analytical Engine invented by 
Charles Babbage”. 1 


Lu, L., Zhang, X., Cho, K., and Renals, S. (2015). A study of the recurrent neural network 


encoder-decoder for large vocabulary speech recognition. In Proc. Interspeech. 391 


Lu, T., Pal, D., and Pal, M. (2010). Contextual multi-armed bandits. In International Confer- 
ence on Artificial Intelligence and Statistics, pages 485—492. 408 


Luenberger, D. G. (1984). Linear and Nonlinear Programming. Addison Wesley. 269 


Lukoševičius, M. and Jaeger, H. (2009). Reservoir computing approaches to recurrent neural 


network training. Computer Science Review, 3(3), 127-149. 344 


Luo, H., Shen, R., Niu, C., and Ullrich, C. (2011). Learning class-relevant features and class- 
irrelevant features via a hybrid third-order RBM. In International Conference on Artificial 
Intelligence and Statistics, pages 470-478. 585 


ww ai bbt.com GOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
652 参考 文献 


Luo, H., Carrier, P. L., Courville, A., and Bengio, Y. (2013). Texture modeling with convolu- 
tional spike-and-slab RBMs and deep extensions. In AISTATS'2013. 90 


Lyu, S. (2009). Interpretation and generalization of score matching. In Proceedings of the 
Twenty-fifth Conference in Uncertainty in Artificial Intelligence (UAT'09). 526 


Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E., and Svetnik, V. (2015). Deep neural nets as 
a method for quantitative structure - activity relationships. J. Chemical information and 


modeling. 451 


Maas, A. L., Hannun, A. Y., and Ng, A. Y. (2013). Rectifier nonlinearities improve neural 
network acoustic models. In ICML Workshop on Deep Learning for Audio, Speech, and 
Language Processing. 166 


Maass, W. (1992). Bounds for the computational power and learning complexity of analog 
neural nets (extended abstract). In Proc. of the 25th ACM Symp. Theory of Computing, 
pages 335-344. 172 


Maass, W., Schnitger, G., and Sontag, E. D. (1994). A comparison of the computational power 
of sigmoid and Boolean threshold circuits. Theoretical Advances in Neural Computation and 


Learning, pages 121-151. 172 


Maass, W., Natschlaeger, T., and Markram, H. (2002). Real-time computing without stable 
states: À new framework for neural computation based on perturbations. Neural Computa- 
tion, 14(11), 2531-2560. 344 


MacKay, D. (2003). Information Theory, Inference and Learning Algorithms. Cambridge Uni- 
versity Press. 66 


Maclaurin, D., Duvenaud, D., and Adams, R. P. (2015). Gradient-based hyperparameter opti- 
mization through reversible learning. arXiv preprint arXiv:1502.08492. 369 


Mao, J., Xu, W., Yang, Y., Wang, J., and Yuille, A. (2014). Deep captioning with multimodal 
recurrent neural networks (m-rnn). arXiv:1412.6632 [cs.C V]. 90 


Marcotte, P. and Savard, G. (1992). Novel approaches to the discrimination problem. Zeitschrift 
fiir Operations Research (Theory), 36, 517-545. 236 


Marlin, B. and de Freitas, N. (2011). Asymptotic efficiency of deterministic estimators for 
discrete energy-based models: Ratio matching and pseudolikelihood. In UAI’2011. 525, 527 





Marlin, B., Swersky, K., Chen, B., and de Freitas, N. (2010). Inductive principles for restricted 
Boltzmann machine learning. In AZSTATS 2010, pages 509—516. 521, 526 


ww ai bbt.com 1 B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 653 


Marquardt, D. W. (1963). An algorithm for least-squares estimation of non-linear parameters. 
Journal of the Society of Industrial and Applied Mathematics, 11(2), 431—441. 265 
Marr, D. and Poggio, T. (1976). Cooperative computation of stereo disparity. Science, 194. 312 


Martens, J. (2010). Deep learning via Hessian-free optimization. In ICML’2010, pages 735-742. 
258 


Martens, J. and Medabalimi, V. (2014). On the expressive efficiency of sum product networks. 
arXiv:1411. 77177. 471 


Martens, J. and Sutskever, I. (2011). Learning recurrent neural networks with Hessian-free 
optimization. In Proc. ICML’2011. ACM. 351, 352 


Mase, S. (1995). Consistency of the maximum pseudo-likelihood estimator of continuous state 


space Gibbsian processes. The Annals of Applied Probability, 5(3), pp. 603-612. 524 





McClelland, J., Rumelhart, D., and Hinton, G. (1995). The appeal of parallel distributed 


processing. In Computation & intelligence, pages 305-341. American Association for Artificial 


Intelligence. 15 


McCulloch, W. S. and Pitts, W. (1943). A logical calculus of ideas immanent in nervous activity. 
Bulletin of Mathematical Biophysics, 5, 115—133. 13 


Mead, C. and Ismail, M. (2012). Analog VLSI implementation of neural systems, volume 80. 
Springer Science & Business Media. 383 


Melchior, J., Fischer, A., and Wiskott, L. (2013). How to center binary deep Boltzmann ma- 
chines. arXiv preprint arXiv:1311.1354. 574 


Memisevic, R. and Hinton, G. E. (2007). Unsupervised learning of image transformations. In 


Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR’07). 585 


Memisevic, R. and Hinton, G. E. (2010). Learning to represent spatial transformations with 


factored higher-order Boltzmann machines. Neural Computation, 22(6), 1473-1492. 585 





Mesnil, G., Dauphin, Y., Glorot, X., Rifai, S., Bengio, Y., Goodfellow, I., Lavoie, E., Muller, 
X., Desjardins, G., Warde-Farley, D., Vincent, P., Courville, A., and Bergstra, J. (2011). 
Unsupervised and transfer learning challenge: a deep learning approach. In JMLR W&CP: 
Proc. Unsupervised and Transfer Learning, volume 7. 173, 453, 457 


Mesnil, G., Rifai, S., Dauphin, Y., Bengio, Y., and Vincent, P. (2012). Surfing on the manifold. 
Learning Workshop, Snowbird. 606 


ww ai bbt.com BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
654 参考 文献 


Miikkulainen, R. and Dyer, M. G. (1991). Natural language processing with modular PDP 
networks and distributed lexicon. Cognitive Science, 15, 343-399. 405 


Mikolov, T. (2012). Statistical Language Models based on Neural Networks. Ph.D. thesis, Brno 
University of Technology. 352 





Mikolov, T., Deoras, A., Kombrink, S., Burget, L., and Cernocky, J. (2011a). Empirical eval- 
uation and combination of advanced language modeling techniques. In Proc. 12th annual 
conference of the international speech communication association (INTERSPEECH 2011). 
401 


Mikolov, T., Deoras, A., Povey, D., Burget, L., and Cernocky, J. (2011b). Strategies for training 
large scale neural network language models. In Proc. ASRU’2011. 278, 401 


Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word represen- 
tations in vector space. In International Conference on Learning Representations: Workshops 
Track. 455 


Mikolov, T., Le, Q. V., and Sutskever, I. (2013b). Exploiting similarities among languages for 
machine translation. Technical report, arXiv:1309.4168. 458 


Minka, T. (2005). Divergence measures and message passing. Microsoft Research Cambridge 
UK Tech Rep MSRTR20051773, 72(TR-2005-173). 532 


Minsky, M. L. and Papert, S. A. (1969). Perceptrons. MIT Press, Cambridge. 14 


Mirza, M. and Osindero, S. (2014). Conditional generative adversarial nets. arXiv preprint 
arXiv:1411.17784. 598 


Mishkin, D. and Matas, J. (2015). All you need is a good init. arXiv preprint arXiv:1511.06422. 
258 


Misra, J. and Saha, I. (2010). Artificial neural networks in hardware: A survey of two decades 


of progress. Neurocomputing, TA(1), 239—255. 383 
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, New York. 87 


Miyato, T., Maeda, S., Koyama, M., Nakae, K., and Ishii, S. (2015). Distributional smoothing 
with virtual adversarial training. In [CLR. Preprint: arXiv:1507.00677. 230 





Mnih, A. and Gregor, K. (2014). Neural variational inference and learning in belief networks. 
In ICML’2014. 589, 590, 591 


ww ai bbc. com (1 HL BEBE B] B. DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 655 


Mnih, A. and Hinton, G. E. (2009). A scalable hierarchical distributed language model. In 
D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou, editors, Advances in Neural Information 
Processing Systems 21 (NIPS'08), pages 1081-1088. 396 


Mnih, A. and Kavukcuoglu, K. (2013). Learning word embeddings efficiently with noise- 
contrastive estimation. In C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Wein- 
berger, editors, Advances in Neural Information Processing Systems 26, pages 2265-2273. 
Curran Associates, Inc. 93, 400, 529 


Mnih, A. and Teh, Y. W. (2012). A fast and simple algorithm for training neural probabilistic 
language models. In /CML 2012, pages 1751-1758. 400 


Mnih, V. and Hinton, G. (2010). Learning to detect roads in high-resolution aerial images. In 
Proceedings of the 11th European Conference on Computer Vision (ECCV). 90 





Mnih, V., Larochelle, H., and Hinton, G. (2011). Conditional restricted Boltzmann machines for 
structure output prediction. In Proc. Conf. on Uncertainty in Artificial Intelligence (UAI). 
584 


Mnih, V., Heess, N., Graves, A., and Kavukcuoglu, K. (2014). Recurrent models of visual 
attention. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Weinberger, 
editors, NIPS’2014, pages 2204-2212. 590 


Mnih, V., Kavukcuoglo, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, 
A., Riedmiller, M., Fidgeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., 
Antonoglou, L, King, H., Kumaran, D., Wierstra, D., Legg, S., and Hassabis, D. (2015). 
Human-level control through deep reinforcement learning. Nature, 518, 529—533. 23 


Mobahi, H. and Fisher, III, J. W. (2015). A theoretical analysis of optimization by Gaussian 
continuation. In AAAI 2015. 278 


Mobahi, H., Collobert, R., and Weston, J. (2009). Deep learning from temporal coherence in 
video. In L. Bottou and M. Littman, editors, Proceedings of the 26th International Conference 


on Machine Learning, pages 731—144, Montreal. Omnipress. 420 


Mohamed, A., Dahl, G., and Hinton, G. (2009). Deep belief networks for phone recognition. 
390 


Mohamed, A., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., and Picheny, M. A. 
(2011). Deep belief networks using discriminative features for phone recognition. In Acoustics, 
Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages 5060— 
5063. IEEE. 390 


ww ai bbc. com DOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
656 参考 文献 


Mohamed, A., Dahl, G., and Hinton, G. (2012a). Acoustic modeling using deep belief networks. 
IEEE Trans. on Audio, Speech and Language Processing, 20(1), 14-22. 390 


Mohamed, A., Hinton, G., and Penn, G. (2012b). Understanding how deep belief networks 
perform acoustic modelling. In Acoustics, Speech and Signal Processing (ICASSP), 2012 
IEEE International Conference on, pages 4273-4276. IEEE. 390 


Moller, M. (1993). Efficient Training of Feed-Forward Neural Networks. Ph.D. thesis, Aarhus 
University, Aarhus, Denmark. 269 


Montavon, G. and Muller, K.-R. (2012). Deep Boltzmann machines and the centering 
trick. In G. Montavon, G. Orr, and K.-R. Müller, editors, Neural Networks: Tricks of 
the Trade, volume 7700 of Lecture Notes in Computer Science, pages 621—637. Preprint: 
http: //arxiv.org/abs/1203.3783. 574 


Montúfar, G. and Ay, N. (2011). Refinements of universal approximation results for deep belief 
networks and restricted Boltzmann machines. Neural Computation, 23(5), 1306-1319. 471 


Montufar, G. F., Pascanu, R., Cho, K., and Bengio, Y. (2014). On the number of linear regions 
of deep neural networks. In NIPS’2014. 17, 172, 471 





Mor-Yosef, S., Samueloff, A., Modan, B., Navot, D., and Schenker, J. G. (1990). Ranking the 
risk factors for cesarean: logistic regression analysis of a nationwide study. Obstet Gynecol, 
75(6), 944-7. 2 


Morin, F. and Bengio, Y. (2005). Hierarchical probabilistic neural network language model. In 
AISTATS’2005. 396, 398 


Mozer, M. C. (1992). The induction of multiscale temporal structure. In J. M. S. Hanson 
and R. Lippmann, editors, Advances in Neural Information Processing Systems 4 (NIPS’91), 
pages 275-282, San Mateo, CA. Morgan Kaufmann. 347 


Murphy, K. P. (2012). Machine Learning: a Probabilistic Perspective. MIT Press, Cambridge, 
MA, USA. 56, 87, 126 


Murray, B. U. I. and Larochelle, H. (2014). A deep and tractable density estimator. In 
ICML’2014. 164, 605 


Nair, V. and Hinton, G. (2010a). Rectified linear units improve restricted Boltzmann machines. 
In ICML’2010. 150, 169 





Nair, V. and Hinton, G. E. (2009). 3d object recognition with deep belief nets. In Y. Bengio, 
D. Schuurmans, J. D. Lafferty, C. K. I. Williams, and A. Culotta, editors, Advances in Neural 
Information Processing Systems 22, pages 1339-1347. Curran Associates, Inc. 585 


ww ai bbt.com DOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 657 


Nair, V. and Hinton, G. E. (2010b). Rectified linear units improve restricted Boltzmann ma- 
chines. In L. Bottou and M. Littman, editors, Proceedings of the Twenty-seventh International 
Conference on Machine Learning (ICML-10), pages 807-814. ACM. 14 


Narayanan, H. and Mitter, S. (2010). Sample complexity of testing the manifold hypothesis. In 
J. Lafferty, C. K. I. Williams, J. Shawe- Taylor, R. Zemel, and A. Culotta, editors, Advances 
in Neural Information Processing Systems 23, pages 1786-1794. 141 


Naumann, U. (2008). Optimal Jacobian accumulation is NP-complete. Mathematical Program- 
ming, 112(2), 427-441. 191 


Navigli, R. and Velardi, P. (2005). Structural semantic interconnections: a knowledge-based 
approach to word sense disambiguation. IEEE Trans. Pattern Analysis and Machine Intelli- 
gence, 27(7), 1075---1086. 411 


Neal, R. and Hinton, G. (1999). A view of the EM algorithm that justifies incremental, sparse, 
and other variants. In M. I. Jordan, editor, Learning in Graphical Models. MIT Press, Cam- 
bridge, MA. 540 


Neal, R. M. (1990). Learning stochastic feedforward networks. Technical report. 590 


Neal, R. M. (1993). Probabilistic inference using Markov chain Monte-Carlo methods. Technical 
Report CRG-TR-93-1, Dept. of Computer Science, University of Toronto. 580 


Neal, R. M. (1994). Sampling from multimodal distributions using tempered transitions. Tech- 
nical Report 9421, Dept. of Statistics, University of Toronto. 513 


Neal, R. M. (1996). Bayesian Learning for Neural Networks. Lecture Notes in Statistics. 
Springer. 227 


Neal, R. M. (2001). Annealed importance sampling. Statistics and Computing, 11(2), 125—139. 
532, 534, 535 


Neal, R. M. (2005). Estimating ratios of normalizing constants using linked importance sampling. 
535, 536 


Nesterov, Y. (1983). A method of solving a convex programming problem with convergence rate 
O(1/k?). Soviet Mathematics Doklady, 27, 372-376. 255 


Nesterov, Y. (2004). Introductory lectures on convex optimization : a basic course. Applied 


optimization. Kluwer Academic Publ., Boston, Dordrecht, London. 255 








Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B., and Ng, A. Y. (2011). Reading digits in 
natural images with unsupervised feature learning. Deep Learning and Unsupervised Feature 
Learning Workshop, NIPS. 18 


ww ai bbc. com (HL EL BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
658 参考 文献 


Ney, H. and Kneser, R. (1993). Improved clustering techniques for class-based statistical lan- 
guage modelling. In European Conference on Speech Communication and Technology (Eu- 
rospeech), pages 973-976, Berlin. 393 


Ng, A. (2015). Advice for applying machine learning. 
https://see.stanford.edu/materials/aimlcs229/ML-advice.pdf. 358 


Niesler, T. R., Whittaker, E. W. D., and Woodland, P. C. (1998). Comparison of part-of- 
speech and automatically derived category-based language models for speech recognition. In 
International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 177— 
180. 393 


Ning, F., Delhomme, D., LeCun, Y., Piano, F., Bottou, L., and Barbano, P. E. (2005). To- 
ward automatic phenotyping of developing embryos from videos. Image Processing, IEEE 
Transactions on, 14(9), 1360-1371. 305 


Nocedal, J. and Wright, S. (2006). Numerical Optimization. Springer. 82, 85 


Norouzi, M. and Fleet, D. J. (2011). Minimal loss hashing for compact binary codes. In 
ICML’2011. 447 


Nowlan, S. J. (1990). Competing experts: An experimental investigation of associative mixture 
models. Technical Report CRG-TR-90-5, University of Toronto. 382 








Nowlan, S. J. and Hinton, G. E. (1992). Adaptive soft weight tying using Gaussian mixtures. 
In J. M. S. Hanson and R. Lippmann, editors, Advances in Neural Information Processing 
Systems 4 (NIPS’91), pages 993-1000, San Mateo, CA. Morgan Kaufmann. 122 


Olshausen, B. and Field, D. J. (2005). How close are we to understanding V1? Neural Compu- 
tation, 17, 1665-1699. 14 


Olshausen, B. A. and Field, D. J. (1996). Emergence of simple-cell receptive field properties by 
learning a sparse code for natural images. Nature, 381, 607—609. 128, 218, 315, 422 


Olshausen, B. A., Anderson, C. H., and Van Essen, D. C. (1993). A neurobiological model of 
visual attention and invariant pattern recognition based on dynamic routing of information. 
J. Neurosci., 13(11), 4700-4719. 382 


Opper, M. and Archambeau, C. (2009). The variational Gaussian approximation revisited. 
Neural computation, 21(3), 786—792. 587 


Oquab, M., Bottou, L., Laptev, I., and Sivic, J. (2014). Learning and transferring mid-level 
image representations using convolutional neural networks. In Computer Vision and Pattern 
Recognition (CVPR), 2014 IEEE Conference on, pages 1717-1724. IEEE. 455 


ww ai bbc. com (HL HL BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 659 


Osindero, S. and Hinton, G. E. (2008). Modeling image patches with a directed hierarchy of 
Markov random fields. In J. Platt, D. Koller, Y. Singer, and S. Roweis, editors, Advances 
in Neural Information Processing Systems 20 (NIPS’07), pages 1121-1128, Cambridge, MA. 
MIT Press. 538 


Ovid and Martin, C. (2004). Metamorphoses. W.W. Norton. 1 


Paccanaro, A. and Hinton, G. E. (2000). Extracting distributed representations of concepts 
and relations from positive and negative propositions. In International Joint Conference on 
Neural Networks (IJCNN), Como, Italy. IEEE, New York. 410, 411 


Paine, T. L., Khorrami, P., Han, W., and Huang, T. S. (2014). An analysis of unsupervised 
pre-training in light of recent advances. arXiv preprint arXiv:1412.6597. 453 


Palatucci, M., Pomerleau, D., Hinton, G. E., and Mitchell, T. M. (2009). Zero-shot learning with 
semantic output codes. In Y. Bengio, D. Schuurmans, J. D. Lafferty, C. K. I. Williams, and 
A. Culotta, editors, Advances in Neural Information Processing Systems 22, pages 1410-1418. 


Curran Associates, Inc. 458 


Parker, D. B. (1985). Learning-logic. Technical Report TR-47, Center for Comp. Research in 
Economics and Management Sci., MIT. 194 


Pascanu, R., Mikolov, T., and Bengio, Y. (2013a). On the difficulty of training recurrent neural 
networks. In /CML'2013. 246, 342, 347, 352, 353, 354 


Pascanu, R., Mikolov, T., and Bengio, Y. (2013b). On the difficulty of training recurrent neural 
networks. In ICM ( 1c). 344 


Pascanu, R., Gulcehre, C., Cho, K., and Bengio, Y. (2014a). How to construct deep recurrent 
neural networks. In /CLR. 17, 227, 339, 340, 348, 391 


Pascanu, R., Montufar, G., and Bengio, Y. (2014b). On the number of inference regions of deep 


feed forward networks with piece-wise linear activations. In ICL ( 1). 468 


Pati, Y., Rezaiifar, R., and Krishnaprasad, P. (1993). Orthogonal matching pursuit: Recursive 
function approximation with applications to wavelet decomposition. In Proceedings of the 27 


th Annual Asilomar Conference on Signals, Systems, and Computers, pages 40-44. 219 


Pearl, J. (1985). Bayesian networks: A model of self-activated memory for evidential reasoning. 
In Proceedings of the 7th Conference of the Cognitive Science Society, University of California, 
Irvine, pages 329—334. 479 


Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. 
Morgan Kaufmann. 48 


ww ai bt. com LH BEBE BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
660 参考 文献 


Perron, O. (1907). Zur theorie der matrices. Mathematische Annalen, 64(2), 248-263. 507 
Petersen, K. B. and Pedersen, M. S. (2006). The matrix cookbook. Version 20051003. 27 


Peterson, G. B. (2004). A day of great illumination: B. F. Skinner's discovery of shaping. 
Journal of the Experimental Analysis of Behavior, 82(3), 317-328. 278 


Pham, D.-T., Garat, P., and Jutten, C. (1992). Separation of a mixture of independent sources 
through a maximum likelihood approach. In EUSIPCO, pages 771-774. 418 


Pham, P.-H., Jelaca, D., Farabet, C., Martini, B., LeCun, Y., and Culurciello, E. (2012). Neu- 
Flow: dataflow vision processing system-on-a-chip. In Circuits and Systems (MWSCAS), 
2012 IEEE 55th International Midwest Symposium on, pages 1044-1047. IEEE. 383 


Pinheiro, P. H. O. and Collobert, R. (2014). Recurrent convolutional neural networks for scene 
labeling. In /CML'2014. 305 


Pinheiro, P. H. O. and Collobert, R. (2015). From image-level to pixel-level labeling with 
convolutional networks. In Conference on Computer Vision and Pattern Recognition (CVPR). 
305 


Pinto, N., Cox, D. D., and DiCarlo, J. J. (2008). Why is real-world visual object recognition 
hard? PLoS Comput Biol, A. 387 


Pinto, N., Stone, Z., Zickler, T., and Cox, D. (2011). Scaling up biologically-inspired computer 
vision: A case study in unconstrained face recognition on facebook. In Computer Vision 
and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference 
on, pages 35-42. IEEE. 309 


Pollack, J. B. (1990). Recursive distributed representations. Artificial Intelligence, 46(1), 77- 
105. 340 


Polyak, B. and Juditsky, A. (1992). Acceleration of stochastic approximation by averaging. 
SIAM J. Control and Optimization, 30(4), 838-855. 273 


Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. USSR 
Computational Mathematics and Mathematical Physics, 4(5), 1-17. 252 


Poole, B., Sohl-Dickstein, J., and Ganguli, S. (2014). Analyzing noise in autoencoders and deep 
networks. CoRR, abs/1406.1831. 206 


Poon, H. and Domingos, P. (2011). Sum-product networks for deep learning. In Learning 
Workshop, Fort Lauderdale, FL. 471 


ww ai bb. com LB BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 661 


Presley, R. K. and Haggard, R. L. (1994). A fixed point implementation of the backpropaga- 
tion learning algorithm. In Southeastcon'94. Creative Technology Transfer-A Global Affair., 
Proceedings of the 1994 IEEE, pages 136-138. IEEE. 383 


Price, R. (1958). A useful theorem for nonlinear devices having Gaussian inputs. IEEE Trans- 
actions on Information Theory, A(2), 69—72. 587 


Quiroga, R. Q., Reddy, L., Kreiman, G., Koch, C., and Fried, I. (2005). Invariant visual 
representation by single neurons in the human brain. Nature, 435(7045), 1102-1107. 311 


Radford, A., Metz, L., and Chintala, S. (2015). Unsupervised representation learning with deep 
convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434. 469, 470, 
598 


Raiko, T., Yao, L., Cho, K., and Bengio, Y. (2014). Iterative neural autoregressive distribution 
estimator (NADE-k). Technical report, arXiv:1406.1485. 575, 604 


Raina, R., Madhavan, A., and Ng, A. Y. (2009a). Large-scale deep unsupervised learning using 
graphics processors. In L. Bottou and M. Littman, editors, Proceedings of the Twenty-sixth 
International Conference on Machine Learning (ICML’09), pages 873-880, New York, NY, 
USA. ACM. 21 


Raina, R., Madhavan, A., and Ng, A. Y. (2009b). Large-scale deep unsupervised learning using 
graphics processors. In ICML’2009. 378 


Ramsey, F. P. (1926). Truth and probability. In R. B. Braithwaite, editor, The Foundations 
of Mathematics and other Logical Essays, chapter T, pages 156-198. McMaster University 
Archive for the History of Economic Thought. 49 


Ranzato, M. and Hinton, G. H. (2010). Modeling pixel means and covariances using factorized 
third-order Boltzmann machines. In CVPR’2010, pages 2551-2558. 580 


Ranzato, M., Poultney, C., Chopra, S., and LeCun, Y. (2007a). Efficient learning of sparse 
representations with an energy-based model. In NIPS’2006. 13, 432, 450, 451 





Ranzato, M., Poultney, C., Chopra, S., and LeCun, Y. (2007b). Efficient learning of sparse 
representations with an energy-based model. In B. Schélkopf, J. Platt, and T. Hoffman, 
editors, Advances in Neural Information Processing Systems 19 (NIPS'06), pages 1137-1144. 
MIT Press. 17 


Ranzato, M., Huang, F., Boureau, Y., and LeCun, Y. (2007c). Unsupervised learning of invariant 


feature hierarchies with applications to object recognition. In CVPR’07. 309 


ww ai bb. com (1 HL BH BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
662 参考 文献 


Ranzato, M., Boureau, Y., and LeCun, Y. (2008). Sparse feature learning for deep belief net- 


works. In NIPS’2007. 432 


Ranzato, M., Krizhevsky, A., and Hinton, G. E. (2010a). Factored 3-way restricted Boltzmann 
machines for modeling natural images. In Proceedings of AISTATS 2010. 578, 579 





Ranzato, M., Mnih, V., and Hinton, G. (2010b). Generating more realistic images using gated 
MRPs. In NIPS’2010. 580 


Rao, C. (1945). Information and the accuracy attainable in the estimation of statistical param- 
eters. Bulletin of the Calcutta Mathematical Society, 37, 81-89. 118, 251 


Rasmus, A., Valpola, H., Honkala, M., Berglund, M., and Raiko, T. (2015). Semi-supervised 
learning with ladder network. arXiv preprint arXiv:1507.02672. 362, 452 


Recht, B., Re, C., Wright, S., and Niu, F. (2011). Hogwild: A lock-free approach to parallelizing 
stochastic gradient descent. In NIPS’2011. 379 


Reichert, D. P., Seriés, P., and Storkey, A. J. (2011). Neuronal adaptation for sampling-based 
probabilistic inference in perceptual bistability. In Advances in Neural Information Processing 
Systems, pages 2357-2365. 568 


Rezende, D. J., Mohamed, S., and Wierstra, D. (2014). Stochastic backpropagation and approx- 
imate inference in deep generative models. In /CML2014. Preprint: arXiv:1401.4082. 557, 
587, 593 


Rifai, S., Vincent, P., Muller, X., Glorot, X., and Bengio, Y. (2011a). Contractive auto-encoders: 
Explicit invariance during feature extraction. In JCML 2011. 444, 445, 446 


Rifai, S., Mesnil, G., Vincent, P., Muller, X., Bengio, Y., Dauphin, Y., and Glorot, X. (2011b). 
Higher order contractive auto-encoder. In ECML PKDD. 444, 445 


Rifai, S., Dauphin, Y., Vincent, P., Bengio, Y., and Muller, X. (2011c). The manifold tangent 
classifier. In NIPS’2011. 232, 445 


Rifai, S., Dauphin, Y., Vincent, P., Bengio, Y., and Muller, X. (2011d). The manifold tangent 
classifier. In NIPS’2011. Student paper award. 232 





Rifai, S., Bengio, Y., Dauphin, Y., and Vincent, P. (2012). A generative process for sampling 
contractive auto-encoders. In ICML’2012. 606 


Ringach, D. and Shapley, R. (2004). Reverse correlation in neurophysiology. Cognitive Science, 
28(2), 147-166. 313 


ww ai bbc. com rH B BL BL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 663 


Roberts, S. and Everson, R. (2001). Independent component analysis: principles and practice. 


Cambridge University Press. 419 


Robinson, A. J. and Fallside, F. (1991). A recurrent error propagation network speech recognition 
system. Computer Speech and Language, 5(3), 259-274. 21, 389 


Rockafellar, R. T. (1997). Convex analysis. princeton landmarks in mathematics. 82 


Romero, A., Ballas, N., Ebrahimi Kahou, S., Chassang, A., Gatta, C., and Bengio, Y. (2015). 
Fitnets: Hints for thin deep nets. In ICLR’2015, arXiv:1412.6550. 276 


Rosen, J. B. (1960). The gradient projection method for nonlinear programming. part i. linear 
constraints. Journal of the Society for Industrial and Applied Mathematics, 8(1), pp. 181—217. 
83 


Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and 
organization in the brain. Psychological Review, 65, 386—408. 13, 21 


Rosenblatt, F. (1962). Principles of Neurodynamics. Spartan, New York. 21 


Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. The 
Annals of Mathematical Statistics, 27(3), 832-837. 13 


Roweis, S. and Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embed- 
ding. Science, 290(5500). 141, 442 


Roweis, S., Saul, L., and Hinton, G. (2002). Global coordination of local linear models. In T. Di- 
etterich, S. Becker, and Z. Ghahramani, editors, Advances in Neural Information Processing 
Systems 14 (NIPS'01), Cambridge, MA. MIT Press. 416 


Rubin, D. B. et al. (1984). Bayesianly justifiable and relevant frequency calculations for the 
applied statistician. The Annals of Statistics, 12(4), 1151-1172. 610 


Rumelhart, D., Hinton, G., and Williams, R. (1986a). Learning representations by back- 
propagating errors. Nature, 323, 533-536. 13, 194, 405, 409 


Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986b). Learning internal representations 
by error propagation. In D. E. Rumelhart and J. L. McClelland, editors, Parallel Distributed 
Processing, volume 1, chapter 8, pages 318-362. MIT Press, Cambridge. 18, 21, 194 


Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986c). Learning representations by 
back-propagating errors. Nature, 323, 533-536. 16, 175, 318 


Rumelhart, D. E., McClelland, J. L., and the PDP Research Group (1986d). Parallel Distributed 
Processing: Explorations in the Microstructure of Cognition. MIT Press, Cambridge. 15, 22 


ww ai bbc. com (1H BB BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
664 参考 文献 


Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., 
Khosla, A., Bernstein, M., Berg, A. C., and Fei-Fei, L. (2014a). ImageNet Large Scale Visual 
Recognition Challenge. 18 


Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., 
Khosla, A., Bernstein, M., et al. (2014b). Imagenet large scale visual recognition challenge. 
arXiv preprint arXiv:1409.0575. 23 


Russel, S. J. and Norvig, P. (2003). Artificial Intelligence: a Modern Approach. Prentice Hall. 
77 


Rust, N., Schwartz, O., Movshon, J. A., and Simoncelli, E. (2005). Spatiotemporal elements of 
macaque V1 receptive fields. Neuron, 46(6), 945-956. 312 


Sainath, T., Mohamed, A., Kingsbury, B., and Ramabhadran, B. (2013). Deep convolutional 
neural networks for LVCSR. In ICASSP 2018. 390 


Salakhutdinov, R. (2010). Learning in Markov random fields using tempered transitions. In 
Y. Bengio, D. Schuurmans, C. Williams, J. Lafferty, and A. Culotta, editors, Advances in 
Neural Information Processing Systems 22 (NIPS’09). 513 


Salakhutdinov, R. and Hinton, G. (2009a). Deep Boltzmann machines. In Proceedings of the 
International Conference on Artificial Intelligence and Statistics, volume 5, pages 448—455. 
20, 21, 565, 568, 571, 573 


Salakhutdinov, R. and Hinton, G. (2009b). Semantic hashing. In International Journal of 
Approximate Reasoning. 447 


Salakhutdinov, R. and Hinton, G. E. (2007a). Learning a nonlinear embedding by preserving 
class neighbourhood structure. In Proceedings of AISTATS-2007. 449 


Salakhutdinov, R. and Hinton, G. E. (2007b). Semantic hashing. In SIGIR’2007. 447 


Salakhutdinov, R. and Hinton, G. E. (2008). Using deep belief nets to learn covariance kernels 
for Gaussian processes. In J. Platt, D. Koller, Y. Singer, and S. Roweis, editors, Advances 
in Neural Information Processing Systems 20 (NIPS’07), pages 1249-1256, Cambridge, MA. 
MIT Press. 209 


Salakhutdinov, R. and Hinton, G. E. (2009c). Deep Boltzmann machines. In AISTATS’2009, 
pages 448-455. 451 


Salakhutdinov, R. and Larochelle, H. (2010). Efficient learning of deep Boltzmann machines. In 
Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics 
(AISTATS 2010), JMLR W&CP, volume 9, pages 693-700. 556 


ww ai bbt.com DOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 665 


Salakhutdinov, R. and Mnih, A. (2008). Probabilistic matrix factorization. In NIPS'2008. 407 


Salakhutdinov, R. and Murray, I. (2008). On the quantitative analysis of deep belief networks. 
In W. W. Cohen, A. McCallum, and S. T. Roweis, editors, Proceedings of the Twenty-fifth 
International Conference on Machine Learning (ICML’08), volume 25, pages 872-879. ACM. 
535, 565 


Salakhutdinov, R., Mnih, A., and Hinton, G. (2007). Restricted Boltzmann machines for col- 
laborative filtering. In ICML. 407 


Sanger, T. D. (1994). Neural network learning control of robot manipulators using gradually 
increasing task difficulty. IEEE Transactions on Robotics and Automation, 10(3). 278 


Saul, L. K. and Jordan, M. I. (1996). Exploiting tractable substructures in intractable networks. 
In D. Touretzky, M. Mozer, and M. Hasselmo, editors, Advances in Neural Information Pro- 
cessing Systems 8 (NIPS'95). MIT Press, Cambridge, MA. 543 


Saul, L. K., Jaakkola, T., and Jordan, M. I. (1996). Mean field theory for sigmoid belief networks. 
Journal of Artificial Intelligence Research, 4, 61-76. 21, 591 


Savich, A. W., Moussa, M., and Areibi, S. (2007). The impact of arithmetic representation on 
implementing mlp-bp on fpgas: A study. Neural Networks, IEEE Transactions on, 18(1), 
240-252. 383 


Saxe, A. M., Koh, P. W., Chen, Z., Bhand, M., Suresh, B., and Ng, A. (2011). On random 
weights and unsupervised feature learning. In Proc. ICML'2011. ACM. 309 


Saxe, A. M., McClelland, J. L., and Ganguli, S. (2013). Exact solutions to the nonlinear 
dynamics of learning in deep linear neural networks. In /CLR. 243, 244, 257 


Schaul, T., Antonoglou, L, and Silver, D. (2014). Unit tests for stochastic optimization. In 


International Conference on Learning Representations. 262 


Schmidhuber, J. (1996). Sequential neural text compression. IEEE Transactions on Neural 
Networks, 7(1), 142-146. 339, 405 


Schmidhuber, J. (2012). Self-delimiting neural networks. arXiv preprint arX1v:1210.0118. 332 


Schólkopf, B. and Smola, A. J. (2002). Learning with kernels: Support vector machines, regu- 


larization, optimization, and beyond. MIT press. 600 


Schólkopf, B., Burges, C. J. C., and Smola, A. J. (1998a). Advances in kernel methods: support 
vector learning. MIT Press, Cambridge, MA. 141 


ww ai bbt.com GOOO000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
666 参考 文献 


Schólkopf, B., Smola, A., and Müller, K.-R. (1998b). Nonlinear component analysis as a kernel 
eigenvalue problem. Neural Computation, 10, 1299-1319. 442 


Schólkopf, B., Burges, C. J. C., and Smola, A. J. (1999). Advances in Kernel Methods — Support 
Vector Learning. MIT Press, Cambridge, MA. 16 


Schélkopf, B., Mika, S., Burges, C., Knirsch, P., Müller, K.-R., Rátsch, G., and Smola, A. 
(1999). Input space versus feature space in kernel-based methods. IEEE Trans. Neural 
Networks, 10(5), 1000-1017. 124 


Schólkopf, B., Janzing, D., Peters, J., Sgouritsa, E., Zhang, K., and Mooij, J. (2012). On causal 
and anticausal learning. In JICML 2012, pages 1255-1262. 464 


Schuster, M. (1999). On supervised learning from sequential data with applications for speech 


recognition. 164 


Schuster, M. and Paliwal, K. (1997). Bidirectional recurrent neural networks. IEEE Transactions 
on Signal Processing, 45(11), 2673-2681. 335 


Schwenk, H. (2007). Continuous space language models. Computer speech and language, 21, 
492—518. 395 


Schwenk, H. (2010). Continuous space language models for statistical machine translation. The 
Prague Bulletin of Mathematical Linguistics, 93, 137—146. 401 


Schwenk, H. (2014). Cleaned subset of WMT ’14 dataset. 18 


Schwenk, H. and Bengio, Y. (1998). Training methods for adaptive boosting of neural networks 
for character recognition. In NIPS 10. MIT Press. 221 


Schwenk, H. and Gauvain, J.-L. (2002). Connectionist language modeling for large vocabulary 
continuous speech recognition. In International Conference on Acoustics, Speech and Signal 
Processing (ICASSP), pages 765-768, Orlando, Florida. 395 


Schwenk, H., Costa-jussà, M. R., and Fonollosa, J. A. R. (2006). Continuous space language 
models for the IWSLT 2006 task. In International Workshop on Spoken Language Translation, 
pages 166-173. 401 


Seide, F., Li, G., and Yu, D. (2011). Conversational speech transcription using context- 


dependent deep neural networks. In Interspeech 2011, pages 431—440. 22 


Sejnowski, T. (1987). Higher-order Boltzmann machines. In AIP Conference Proceedings 151 
on Neural Networks for Computing, pages 398-403. American Institute of Physics Inc. 585 


ww ai bbc. com (1 HL BEL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 667 


Series, P., Reichert, D. P., and Storkey, A. J. (2010). Hallucinations in Charles Bonnet syn- 
drome induced by homeostasis: a deep Boltzmann machine model. In Advances in Neural 


Information Processing Systems, pages 2020—2028. 568 


Sermanet, P., Chintala, S., and LeCun, Y. (2012). Convolutional neural networks applied to 
house numbers digit classification. In International Conference on Pattern Recognition (ICPR 
2012). 387 


Sermanet, P., Kavukcuoglu, K., Chintala, S., and LeCun, Y. (2013). Pedestrian detection with 
unsupervised multi-stage feature learning. In Proc. International Conference om Computer 
Vision and Pattern Recognition (CVPR'13). IEEE. 22, 173 


Shilov, G. (1977). Linear Algebra. Dover Books on Mathematics Series. Dover Publications. 27 


Siegelmann, H. (1995). Computation beyond the Turing limit. Science, 268(5210), 545—548. 
323 


Siegelmann, H. and Sontag, E. (1991). Turing computability with neural nets. Applied Mathe- 
matics Letters, A(6), 77-80. 323 


Siegelmann, H. T. and Sontag, E. D. (1995). On the computational power of neural nets. Journal 
of Computer and Systems Sciences, 50(1), 132—150. 323, 324, 344 


Sietsma, J. and Dow, R. (1991). Creating artificial neural networks that generalize. Neural 
Networks, 4(1), 67-79. 206 


Simard, D., Steinkraus, P. Y., and Platt, J. C. (2003). Best practices for convolutional neural 
networks. In ICDAR’2003. 316 


Simard, P. and Graf, H. P. (1994). Backpropagation without multiplication. In Advances in 
Neural Information Processing Systems, pages 232-239. 383 


Simard, P., Victorri, B., LeCun, Y., and Denker, J. (1992). Tangent prop - A formalism for 
specifying selected invariances in an adaptive network. In NIPS’1991. 231, 232, 300 


Simard, P. Y., LeCun, Y., and Denker, J. (1993). Efficient pattern recognition using a new 
transformation distance. In NIPS’92. 231 


Simard, P. Y., LeCun, Y. A., Denker, J. S., and Victorri, B. (1998). Transformation invariance in 
pattern recognition — tangent distance and tangent propagation. Lecture Notes in Computer 
Science, 1524. 231 


Simons, D. J. and Levin, D. T. (1998). Failure to detect changes to people during a real-world 
interaction. Psychonomic Bulletin & Review, 5(4), 644-649. 462 


ww ai bbc. com GOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
668 参考 文献 


Simonyan, K. and Zisserman, A. (2015). Very deep convolutional networks for large-scale image 
recognition. In ICLR. 274 


Sjóberg, J. and Ljung, L. (1995). Overtraining, regularization and searching for a minimum, 


with application to neural networks. International Journal of Control, 62(6), 1391-1407. 214 
Skinner, B. F. (1958). Reinforcement today. American Psychologist, 13, 94-99. 278 


Smolensky, P. (1986). Information processing in dynamical systems: Foundations of harmony 
theory In D. E. Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing, 
volume 1, chapter 6, pages 194—281. MIT Press, Cambridge. 485, 498, 560 


Snoek, J., Larochelle, H., and Adams, R. P. (2012). Practical Bayesian optimization of machine 
learning algorithms. In NIPS’2012. 370 


Socher, R., Huang, E. H., Pennington, J., Ng, A. Y., and Manning, C. D. (2011a). Dynamic 
pooling and unfolding recursive autoencoders for paraphrase detection. In NIPS’2011. 340, 
341 


Socher, R., Manning, C., and Ng, A. Y. (2011b). Parsing natural scenes and natural language 
with recursive neural networks. In Proceedings of the T'wenty- Eighth International Conference 
on Machine Learning (ICML’2011). 340 


Socher, R., Pennington, J., Huang, E. H., Ng, A. Y., and Manning, C. D. (2011c). Semi- 
supervised recursive autoencoders for predicting sentiment distributions. In EMNLP"2011. 
340, 341 


Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Manning, C. D., Ng, A. Y., and Potts, C. 
(2013a). Recursive deep models for semantic compositionality over a sentiment treebank. In 
EMNLP'2013. 340, 341 


Socher, R., Ganjoo, M., Manning, C. D., and Ng, A. Y. (2013b). Zero-shot learning through 
cross-modal transfer. In 27th Annual Conference on Neural Information Processing Systems 
(NIPS 2013). 458 


Sohl-Dickstein, J., Weiss, E. A., Maheswaranathan, N., and Ganguli, S. (2015). Deep unsuper- 


vised learning using nonequilibrium thermodynamics. 609, 610 


Sohn, K., Zhou, G., and Lee, H. (2013). Learning and selecting features jointly with point-wise 
gated Boltzmann machines. In ICML'2013. 585 


Solomonoff, R. J. (1989). A system for incremental learning based on algorithmic probability. 
278 


ww ai bbt.com rH B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 669 


Sontag, E. D. (1998). VC dimension of neural networks. NATO ASI Series F Computer and 
Systems Sciences, 168, 69-96. 466, 469 


Sontag, E. D. and Sussman, H. J. (1989). Backpropagation can give rise to spurious local minima 


even for networks without hidden layers. Complex Systems, 3, 91-106. 242 
Sparkes, B. (1996). The Red and the Black: Studies in Greek Pottery. Routledge. 1 


Spitkovsky, V. I., Alshawi, H., and Jurafsky, D. (2010). From baby steps to leapfrog: how “less 


is more” in unsupervised dependency parsing. In HLT’10. 278 


Squire, W. and Trapp, G. (1998). Using complex variables to estimate derivatives of real func- 
tions. SIAM Rev., 40(1), 110---112. 372 


Srebro, N. and Shraibman, A. (2005). Rank, trace-norm and max-norm. In Proceedings of the 


18th Annual Conference on Learning Theory, pages 545—560. Springer-Verlag. 205 


Srivastava, N. (2013). Improving Neural Networks With Dropout. Master's thesis, U. Toronto. 
455 


Srivastava, N. and Salakhutdinov, R. (2012). Multimodal learning with deep Boltzmann ma- 
chines. In NIPS'2012. 459 


Srivastava, N., Salakhutdinov, R. R., and Hinton, G. E. (2013). Modeling documents with deep 
Boltzmann machines. arXiv preprint arXiv:1309.6865. 565 


Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2014). Dropout: 
A simple way to prevent neural networks from overfitting. Journal of Machine Learning 
Research, 15, 1929-1958. 221, 226, 227, 228, 573 


Srivastava, R. K., Greff, K., and Schmidhuber, J. (2015). Highway networks. arX$v:1505.00387. 
277 


Steinkrau, D., Simard, P. Y., and Buck, I. (2005). Using GPUs for machine learning algorithms. 
2018 12th International Conference on Document Analysis and Recognition, 0, 1115-1119. 
378 


Stoyanov, V., Ropson, A., and Eisner, J. (2011). Empirical risk minimization of graphical model 
parameters given approximate inference, decoding, and model structure. In Proceedings of 
the 14th International Conference on Artificial Intelligence and Statistics (AISTATS), vol- 
ume 15 of JMLR Workshop and Conference Proceedings, pages 725-733, Fort Lauderdale. 
Supplementary material (4 pages) also available. 575, 595 


ww ai bbt.com BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
670 参考 文献 


Sukhbaatar, S., Szlam, A., Weston, J., and Fergus, R. (2015). Weakly supervised memory 
networks. arXiv preprint arXiv:1503.08895. 355 


Supancic, J. and Ramanan, D. (2013). Self-paced learning for long-term tracking. In 
CVPR’2013. 279 


Sussillo, D. (2014). Random walks: Training very deep nonlinear feed-forward networks with 
smart initialization. CoRR, abs/1412.6558. 247, 258, 259, 343 


Sutskever, I. (2012). Training Recurrent Neural Networks. Ph.D. thesis, Department of computer 


science, University of Toronto. 346, 352 


Sutskever, I. and Hinton, G. E. (2008). Deep narrow sigmoid belief networks are universal 
approximators. Neural Computation, 20(11), 2629-2636. 591 


Sutskever, I. and Tieleman, T. (2010). On the Convergence Properties of Contrastive Divergence. 
In AISTATS'2010. 520 


Sutskever, L, Hinton, G., and Taylor, G. (2009). The recurrent temporal restricted Boltzmann 
machine. In NIPS'2008. 584 


Sutskever, L, Martens, J., and Hinton, G. E. (2011). Generating text with recurrent neural 
networks. In /CML 2011, pages 1017-1024. 405 


Sutskever, I., Martens, J., Dahl, G., and Hinton, G. (2013). On the importance of initialization 
and momentum in deep learning. In /CML. 255, 346, 352 


Sutskever, L, Vinyals, O., and Le, Q. V. (2014). Sequence to sequence learning with neural 
networks. In NIPS’2014, arXiv:1409.3215. 23, 89, 337, 348, 350, 402 


Sutton, R. and Barto, A. (1998). Reinforcement Learning: An Introduction. MIT Press. 93 


Sutton, R. S., Mcallester, D., Singh, S., and Mansour, Y. (2000). Policy gradient methods for 
reinforcement learning with function approximation. In NIPS’1999, pages 1057---1063. MIT 
Press. 589 


Swersky, K., Ranzato, M., Buchman, D., Marlin, B., and de Freitas, N. (2011). On autoencoders 
and score matching for energy based models. In ICML’2011. ACM. 437 


Swersky, K., Snoek, J., and Adams, R. P. (2014). Freeze-thaw Bayesian optimization. arXiv 
preprint arXiv:1406.3896. 370 


Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Van- 
houcke, V., and Rabinovich, A. (2014a). Going deeper with convolutions. Technical report, 
arXiv:1409.4842. 20, 21, 173, 221, 230, 232, 277, 294 


ww ai bbt.com DO000000 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 671 


Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., and Fergus, R. 
(2014b). Intriguing properties of neural networks. ICLR, abs/1312.6199. 229 


Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., and Wojna, Z. (2015). Rethinking the Inception 
Architecture for Computer Vision. ArXiv e-prints. 208, 274 


Taigman, Y., Yang, M., Ranzato, M., and Wolf, L. (2014). DeepFace: Closing the gap to 


human-level performance in face verification. In CVPR’2014. 88 


Tandy, D. W. (1997). Works and Days: 4 Translation and Commentary for the Social Sciences. 


University of California Press. 1 


Tang, Y. and Eliasmith, C. (2010). Deep networks for robust visual recognition. In Proceedings 
of the 27th International Conference on Machine Learning, June 21-24, 2010, Haifa, Israel. 
206 


Tang, Y., Salakhutdinov, R., and Hinton, G. (2012). Deep mixtures of factor analysers. arXiv 
preprint arXiv:1206.4635. 416 


Taylor, G. and Hinton, G. (2009). Factored conditional restricted Boltzmann machines for 
modeling motion style. In L. Bottou and M. Littman, editors, Proceedings of the Twenty- 
sixth International Conference on Machine Learning (ICML’09), pages 1025-1032, Montreal, 
Quebec, Canada. ACM. 584 


Taylor, G., Hinton, G. E., and Roweis, S. (2007). Modeling human motion using binary latent 
variables. In B. Schólkopf, J. Platt, and T. Hoffman, editors, Advances in Neural Information 
Processing Systems 19 (NIPS'06), pages 1345-1352. MIT Press, Cambridge, MA. 584 


Teh, Y., Welling, M., Osindero, S., and Hinton, G. E. (2003). Energy-based models for sparse 


overcomplete representations. Journal of Machine Learning Research, 4, 1235-1260. 418 


Tenenbaum, J., de Silva, V., and Langford, J. C. (2000). A global geometric framework for 
nonlinear dimensionality reduction. Science, 290(5500), 2319—2323. 141, 442, 455 


Theis, L., van den Oord, A., and Bethge, M. (2015). A note on the evaluation of generative 
models. arXiv:1511.01844. 595, 612 


Thompson, J., Jain, A., LeCun, Y., and Bregler, C. (2014). Joint training of a convolutional 
network and a graphical model for human pose estimation. In NIPS’2014. 305 


Thrun, S. (1995). Learning to play the game of chess. In NIPS’1994. 231 


Tibshirani, R. J. (1995). Regression shrinkage and selection via the lasso. Journal of the Royal 
Statistical Society B, 58, 267—288. 203 


ww ai bbc. com (HL HL BL B] B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
672 参考 文献 


Tieleman, T. (2008). Training restricted Boltzmann machines using approximations to the 
likelihood gradient. In ICML’2008, pages 1064-1071. 520 


Tieleman, T. and Hinton, G. (2009). Using fast weights to improve persistent contrastive diver- 
gence. In ICML’2009. 523 


Tipping, M. E. and Bishop, C. M. (1999). Mixtures of probabilistic principal component anal- 
ysers. Neural Computation, 11(2), 443-482. 418 


Torralba, A., Fergus, R., and Weiss, Y. (2008). Small codes and large databases for recognition. 
In Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR'08), pages 
1-8. 447 


Touretzky, D. S. and Minton, G. E. (1985). Symbols among the neurons: Details of a con- 
nectionist inference architecture. In Proceedings of the 9th International Joint Conference on 
Artificial Intelligence - Volume 1, IJCAI’85, pages 238—243, San Francisco, CA, USA. Morgan 


Kaufmann Publishers Inc. 15 


Tu, K. and Honavar, V. (2011). On the utility of curricula in unsupervised learning of proba- 
bilistic grammars. In JJCAI'2011. 278 


Turaga, S. C., Murray, J. F., Jain, V., Roth, F., Helmstaedter, M., Briggman, K., Denk, W., 
and Seung, H. S. (2010). Convolutional networks can learn to generate affinity graphs for 


image segmentation. Neural Computation, 22, 511—538. 305 


Turian, J., Ratinov, L., and Bengio, Y. (2010). Word representations: A simple and general 
method for semi-supervised learning. In Proc. ACL’2010, pages 384—394. 454 


Tóscher, A., Jahrer, M., and Bell, R. M. (2009). The BigChaos solution to the Netflix grand 
prize. 407 


Uria, B., Murray, I., and Larochelle, H. (2013). Rnade: The real-valued neural autoregressive 
density-estimator. In NIPS'2013. 604, 605 


van den Oórd, A., Dieleman, S., and Schrauwen, B. (2013). Deep content-based music recom- 
mendation. In NIPS’2013. 407 


van der Maaten, L. and Hinton, G. E. (2008). Visualizing data using t-SNE. J. Machine Learning 
Res., 9. 405, 442 


Vanhoucke, V., Senior, A., and Mao, M. Z. (2011). Improving the speed of neural networks on 
CPUs. In Proc. Deep Learning and Unsupervised Feature Learning NIPS Workshop. 377, 383 


ww ai bbt.com GOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 673 


Vapnik, V. N. (1982). Estimation of Dependences Based om Empirical Data. Springer-Verlag, 
Berlin. 100 


Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer, New York. 100 


Vapnik, V. N. and Chervonenkis, A. Y. (1971). On the uniform convergence of relative frequen- 
cies of events to their probabilities. Theory of Probability and Its Applications, 16, 264—280. 
100 


Vincent, P. (2011). A connection between score matching and denoising autoencoders. Neural 
Computation, 23(7). 437, 438, 439, 607 


Vincent, P. and Bengio, Y. (2003). Manifold Parzen windows. In NIPS'2002. MIT Press. 443 


Vincent, P., Larochelle, H., Bengio, Y., and Manzagol, P.-A. (2008a). Extracting and composing 
robust features with denoising autoencoders. In ICM ( 1a), pages 1096-1103. 206 


Vincent, P., Larochelle, H., Bengio, Y., and Manzagol, P.-A. (2008b). Extracting and composing 
robust features with denoising autoencoders. In ICML 2008. 439 


Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., and Manzagol, P.-A. (2010). Stacked denois- 
ing autoencoders: Learning useful representations in a deep network with a local denoising 


criterion. J. Machine Learning Res., 11. 439 


Vincent, P., de Brébisson, A., and Bouthillier, X. (2015). Efficient exact gradient update for 
training deep networks with very large sparse targets. In C. Cortes, N. D. Lawrence, D. D. Lee, 
M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 
28, pages 1108-1116. Curran Associates, Inc. 395 


Vinyals, O., Kaiser, L., Koo, T., Petrov, S., Sutskever, I., and Hinton, G. (2014a). Grammar as 
a foreign language. arXiv preprint arXiv:1412.7449. 348 


Vinyals, O., Toshev, A., Bengio, S., and Erhan, D. (2014b). Show and tell: a neural image 
caption generator. arXiv 1411.4555. 348 


Vinyals, O., Fortunato, M., and Jaitly, N. (2015a). Pointer networks. arXiv preprint 
arXiv:1506.03134. 355 


Vinyals, O., Toshev, A., Bengio, S., and Erhan, D. (2015b). Show and tell: a neural image 
caption generator. In CVPR’2015. arXiv:1411.4555. 90 


Viola, P. and Jones, M. (2001). Robust real-time object detection. In International Journal of 
Computer Vision. 381 


ww ai bbc. com r1 B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
674 参考 文献 


Visin, F., Kastner, K., Cho, K., Matteucci, M., Courville, A., and Bengio, Y. (2015). ReNet: 
A recurrent neural network based alternative to convolutional networks. arXiv preprint 
arXiv:1505.00393. 337 


Von Melchner, L., Pallas, S. L., and Sur, M. (2000). Visual behaviour mediated by retinal 
projections directed to the auditory pathway. Nature, A04(6780), 871—876. 14 


Wager, S., Wang, S., and Liang, P. (2013). Dropout training as adaptive regularization. In 
Advances in Neural Information Processing Systems 26, pages 351—359. 227 


Waibel, A., Hanazawa, T., Hinton, G. E., Shikano, K., and Lang, K. (1989). Phoneme recogni- 
tion using time-delay neural networks. IEEE Transactions on Acoustics, Speech, and Signal 
Processing, 37, 328—339. 318, 385, 389 


Wan, L., Zeiler, M., Zhang, S., LeCun, Y., and Fergus, R. (2013). Regularization of neural 
networks using dropconnect. In ICML’2013. 228 


Wang, S. and Manning, C. (2013). Fast dropout training. In ICML’2013. 227 


Wang, Z., Zhang, J., Feng, J., and Chen, Z. (2014a). Knowledge graph and text jointly embed- 
ding. In Proc. EMNLP'2014. 410 


Wang, Z., Zhang, J., Feng, J., and Chen, Z. (2014b). Knowledge graph embedding by translating 
on hyperplanes. In Proc. AAAI’2014. 411 


Warde-Farley, D., Goodfellow, I. J., Courville, A., and Bengio, Y. (2014). An empirical analysis 
of dropout in piecewise linear networks. In ICL ( 1). 224, 227, 228 


Wawrzynek, J., Asanovic, K., Kingsbury, B., Johnson, D., Beck, J., and Morgan, N. (1996). 
Spert-II: A vector microprocessor system. Computer, 29(3), 79-86. 383 


Weaver, L. and Tao, N. (2001). The optimal reward baseline for gradient-based reinforcement 
learning. In Proc. UAI’2001, pages 538-545. 589 


Weinberger, K. Q. and Saul, L. K. (2004a). Unsupervised learning of image manifolds by 
semidefinite programming. In Proceedings of the Computer Vision and Pattern Recognition 
Conference (CVPR’04), volume 2, pages 988-995, Washington D.C. 141 


Weinberger, K. Q. and Saul, L. K. (2004b). Unsupervised learning of image manifolds by 
semidefinite programming. In CVPR’2004, pages 988—995. 442 


Weiss, Y., Torralba, A., and Fergus, R. (2008). Spectral hashing. In NIPS, pages 1753-1760. 
447 


ww ai bbt.com r1 B BL BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 675 


Welling, M., Zemel, R. S., and Hinton, G. E. (2002). Self supervised boosting. In Advances in 
Neural Information Processing Systems, pages 665-672. 599 


Welling, M., Hinton, G. E., and Osindero, S. (2003a). Learning sparse topographic representa- 
tions with products of Student-t distributions. In NIPS’2002. 580 


Welling, M., Zemel, R., and Hinton, G. E. (2003b). Self-supervised boosting. In S. Becker, 
S. Thrun, and K. Obermayer, editors, Advances in Neural Information Processing Systems 
15 (NIPS'02), pages 665-672. MIT Press. 530 


Welling, M., Rosen-Zvi, M., and Hinton, G. E. (2005). Exponential family harmoniums with an 
application to information retrieval. In L. Saul, Y. Weiss, and L. Bottou, editors, Advances 
in Neural Information Processing Systems 17 (NIPS'04), volume 17, Cambridge, MA. MIT 
Press. 577 


Werbos, P. J. (1981). Applications of advances in nonlinear sensitivity analysis. In Proceedings 
of the 10th IFIP Conference, 31.8 - 4.9, NYC, pages 762-770. 194 


Weston, J., Bengio, S., and Usunier, N. (2010). Large scale image annotation: learning to rank 


with joint word-image embeddings. Machine Learning, 81(1), 21-35. 342 


Weston, J., Chopra, S., and Bordes, A. (2014). Memory networks. arXiv preprint 
arXiv:1410.3916. 355, 411 


Widrow, B. and Hoff, M. E. (1960). Adaptive switching circuits. In 1960 IRE WESCON 
Convention Record, volume 4, pages 96-104. IRE, New York. 13, 18, 20, 21 


Wikipedia (2015). List of animals by number of neurons — Wikipedia, the free encyclopedia. 
(Online; accessed 4-March-2015]. 20, 21 


Williams, C. K. I. and Agakov, F. V. (2002). Products of Gaussians and Probabilistic Minor 
Component Analysis. Neural Computation, 14(5), 1169-1182. 581 


Williams, C. K. I. and Rasmussen, C. E. (1996). Gaussian processes for regression. In D. Touret- 
zky, M. Mozer, and M. Hasselmo, editors, Advances in Neural Information Processing Systems 
8 (NIPS'95), pages 514-520. MIT Press, Cambridge, MA. 124 


Williams, R. J. (1992). Simple statistical gradient-following algorithms connectionist reinforce- 
ment learning. Machine Learning, 8, 229—256. 587, 588 


Williams, R. J. and Zipser, D. (1989). A learning algorithm for continually running fully recur- 
rent neural networks. Neural Computation, 1, 270—280. 192 


ww ai bt. com r1 HL BH BL BL B BI 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
676 参考 文献 


Wilson, D. R. and Martinez, T. R. (2003). The general inefficiency of batch training for gradient 
descent learning. Neural Networks, 16(10), 1429-1451. 238 


Wilson, J. R. (1984). Variance reduction techniques for digital simulation. American Journal of 
Mathematical and Management Sciences, A(3), 277---312. 588 


Wiskott, L. and Sejnowski, T. J. (2002). Slow feature analysis: Unsupervised learning of invari- 
ances. Neural Computation, 14(4), 715-770. 420, 421 


Wolpert, D. and MacReady, W. (1997). No free lunch theorems for optimization. IEEE Trans- 
actions on Evolutionary Computation, 1, 67-82. 249 


Wu, R., Yan, S., Shan, Y., Dang, Q., and Sun, G. (2015). Deep image: Scaling up image 
recognition. arXiv:1501.02876. 380 


Wu, Z. (1997). Global continuation for distance geometry problems. SIAM Journal of Opti- 
mization, T, 814-836. 278 


Xiong, H. Y., Barash, Y., and Frey, B. J. (2011). Bayesian prediction of tissue-regulated splicing 
using RNA sequence and cellular context. Bioinformatics, 27(18), 2554-2562. 227 


Xu, K., Ba, J. L., Kiros, R., Cho, K., Courville, A., Salakhutdinov, R., Zemel, R. S., and Bengio, 
Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. In 
ICML'2015, arXiv:1502.03044. 90, 348, 590 


Yildiz, I. B., Jaeger, H., and Kiebel, S. J. (2012). Re-visiting the echo state property. Neural 
networks, 35, 1-9. 345 


Yosinski, J., Clune, J., Bengio, Y., and Lipson, H. (2014). How transferable are features in deep 
neural networks? In NIPS 27, pages 3320-3328. Curran Associates, Inc. 276, 455 


Younes, L. (1998). On the convergence of Markovian stochastic algorithms with rapidly decreas- 


ing ergodicity rates. In Stochastics and Stochastics Models, pages 177—228. 520 


Yu, D., Wang, S., and Deng, L. (2010). Sequential labeling using deep-structured conditional 
random fields. IEEE Journal of Selected Topics in Signal Processing. 275 


Zaremba, W. and Sutskever, I. (2014). Learning to execute. arXiv 1410.4615. 279 


Zaremba, W. and Sutskever, I. (2015). Reinforcement learning neural Turing machines. 
arXiv:1505.00521. 357 


Zaslavsky, T. (1975). Facing Up to Arrangements: Face- Count Formulas for Partitions of Space 
by Hyperplanes. Number no. 154 in Memoirs of the American Mathematical Society. American 
Mathematical Society. 468 


ww ai bbc. com (HL BHL B] B. DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
参考 文献 677 


Zeiler, M. D. and Fergus, R. (2014). Visualizing and understanding convolutional networks. In 
ECCV'14. 5 


Zeiler, M. D., Ranzato, M., Monga, R., Mao, M., Yang, K., Le, Q., Nguyen, P., Senior, A., 
Vanhoucke, V., Dean, J., and Hinton, G. E. (2013). On rectified linear units for speech 
processing. In ICASSP 2018. 390 


Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., and Torralba, A. (2015). Object detectors emerge 
in deep scene CNNs. ICLR’2015, arXiv:1412.6856. 469 


Zhou, J. and Troyanskaya, O. G. (2014). Deep supervised and convolutional generative stochastic 


network for protein secondary structure prediction. In ICML’2014. 609 


Zhou, Y. and Chellappa, R. (1988). Computation of optical flow using a neural network. In 
Neural Networks, 1988., IEEE International Conference on, pages 71-78. IEEE. 289 


Zóhrer, M. and Pernkopf, F. (2014). General stochastic networks for classification. In NIPS’2014. 
609 


ww ai bbc. com 1H BB BL B DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 


术语 


绝对 值 整流 absolute value rectification 166, 167, 172 

“EMA accuracy 91, 359, 371-374 

声学 acoustic 391 

激活 函数 activation function 147, 244, 256, 257, 259, 270-272, 276, 277 
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退火 重要 采样 annealed importance sampling 532-536, 565, 570, 611 
专用 集成 电路 application-specific integrated circuit 383 
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中 心 极限 定理 central limit theorem 58, 503 

链 式 法 则 chain rule 53, 76, 524 

混沌 chaos 257 

3& chord 491, 492 

弦 图 chordal graph 492 

梯度 截断 clip gradient 164 

截断 梯度 clipping the gradient 352 

clique 481—485, 490—493, 495, 496, 538, 542, 564 

团 势 能 clique potential 481, 483, 484 

闭 式 解 closed form solution 205, 419, 421 

级 联 coalesced 378, 382 

编码 code 428-430, 432-434, 444, 446, 447 

协同 过 滤 collaborative filtering 406, 407 

3l column 28 

列 空间 column space 33 

共 因 common cause 488 

完全 图 complete graph 490 

复杂 细胞 complex cell 311 

计算 图 computational graph 176, 246, 319-321, 327—329, 340, 354, 497, 575, 595, 602 
计算 机 视觉 Computer Vision 217, 362, 376, 383-385, 388, 420, 469 
概念 漂移 concept drift 456, 457 

条 件 计算 conditional computation 381 

条 件 概率 conditional probability 52, 53, 64, 69, 523 

条 件 独立 的 conditionally independent 53, 417, 480, 486, 487, 491 
#4 conjugate 267 

LARA conjugate directions 266 

HAME conjugate gradient 266-269 

联结 主义 connectionism 12, 13, 15, 16, 19, 376, 558 

一 致 性 consistency 114 

约束 优化 constrained optimization 82, 83, 85, 219, 484 
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特定 环境 下 的 独立 context-specific independences 487 

contextual bandit contextual bandit 408, 409 

延 拓 法 continuation method 277, 278 

收缩 contractive 345, 444—446 

收缩 自 编码 器 contractive autoencoder 433, 437, 439, 441, 444, 445, 605, 606 


对 比 散 度 contrastive divergence 247, 437, 518—522, 526, 528, 563, 564, 570, 573, 574, 579-581, 
585, 607 


凸 优化 Convex optimization 82, 240-242, 260, 273 
卷 积 convolution 280, 281, 449, 498 

ARRSH. Convolutional Boltzmann Machine 292 
卷 积 玻 尔 兹 曼 机 convolutional Boltzmann machine 583 
卷 积 网 络 convolutional net 471 


卷 积 网 络 convolutional network 20, 21, 144, 174, 241, 245, 280, 281, 284, 286, 287, 289, 292-296, 
298, 300, 301, 303, 305-313, 316-318, 336, 337, 359, 361, 362, 374, 378, 390, 394, 401, 402, 
407, 455, 468, 469, 582, 583, 593, 600, 603 


卷 积 神经 网 络 convolutional neural network 145, 217, 228, 280, 283, 284, 289, 294, 305 
坐标 上 升 coordinate ascent 540, 542, 571 

坐标 下 降 coordinate descent 273 

共 父 coparent 538, 546 

相关 系数 correlation 55 

代价 cost 119, 134, 242-245, 247, 251, 256, 359, 360, 364, 369, 454, 505 


代价 函数 cost function 26, 74, 76, 78, 87, 104, 115, 116, 132-134, 152, 200, 202, 203, 207, 208, 
213, 214, 230, 234-236, 241-248, 250, 251, 254, 268, 270, 271, 273, 274, 277, 278, 352, 359, 
364, 374, 412, 420, 422, 432, 436, 437, 452, 464, 505, 523, 574, 587, 600 


协 方差 covariance 54, 55, 60, 201, 219, 426 

协 方差 矩阵 covariance matrix 55, 58, 60, 417, 426 
协 方差 RBM covariance RBM 579, 580 

覆盖 coverage 360, 374 


准则 criterion 74, 209, 250, 253, 255, 261-264, 266, 268, 321, 326, 344, 400, 434, 436-438, 445, 
446, 574, 585, 593, 595, 607, 609 


KA critical point 74-77, 79-82, 241—244, 248, 249, 265, 452, 550, 552 
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临界 温度 critical temperatures 513 

互相 关 函 数 cross-correlation 282 

SEXUS cross-entropy 68, 116, 153-156, 188, 189, 191, 194, 329, 332, 395, 396 
累积 函数 cumulative function 503 

课程 学 习 curriculum learning 278, 279, 326 

维 数 灾难 curse of dimensionality 135, 136, 138, 393, 394, 467, 472, 602 

曲率 curvature 78-81, 99, 200, 241, 252, 265 

控制 论 cybernetics 12, 13 


Xt damping 550 

数据 生成 分 布 data generating distribution 97, 235, 239, 240, 250 
数据 生成 过 程 data generating process 97, 448 

数据 并 行 data parallelism 379 

数据 点 data point 92 


数据 集 dataset 87, 92-95, 97, 98, 101, 104, 106, 107, 113-115, 118, 119, 125, 128, 131, 133, 134, 
141 


数据 集 增 强 dataset augmentation 385, 388 
决策 树 decision tree 125, 127, 381—383, 465 





解码 器 decoder 4, 337, 338, 401-403, 416, 419, 420, 422-426, 428-430, 433-435, 438-440, 446, 
468, 594 
分 解 decompose 38 


深度 信念 网 络 deep belief network 17, 21, 309, 451, 471, 519, 535, 537, 561, 563-565, 567, 568, 
571, 583, 590, 608 


RERS Deep Boltzmann Machine xiv, 20, 21, 451, 512, 519, 522, 525, 526, 537, 538, 

550, 556, 561, 563, 565-576, 583, 608 
深度 回路 deep circuit 471 

深度 前 馈 网 络 deep feedforward network 145, 147, 390, 416, 427 

深度 生成 模型 deep generative model 451 

深度 学 习 deep learning 1, 4, 5, 7, 10-15, 17, 18, 22-24, 26, 73, 74, 76, 79, 82, 87-89, 92, 93, 
100, 105, 125, 128, 132, 133, 135-138, 141, 144, 196, 197, 209-211, 229, 234, 236, 238, 
247, 250, 255, 260, 261, 265, 268, 269, 274, 344, 357, 361, 363, 370, 373, 376, 378, 380, 
382-385, 389-391, 406, 407, 409, 411, 414, 415, 443, 447, 455, 457, 461, 465, 471, 473-475, 
483, 495—498, 500, 505, 506, 509, 515, 517, 520, 525, 537, 538, 541, 542, 554 
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深度 模型 deep model 93, 234, 235, 240, 242, 244, 256, 262, 276, 451, 521, 525 
深度 网 络 deep network 144, 210, 257, 271, 277, ATO 

信任 度 degree of belief 49 

去 品 denoising 90, 92, 432, 436, 437, 439, 444, 475, 527 


去 噪 自 编 码 器 denoising autoencoder xv, 206, 432, 433, 435—439, 441, 444, 453, 456, 587, 605- 
610 


去 噪 得 分 匹配 denoising score matching 437, 527 

依赖 dependency 473, 475, 487, 491, 495 

深度 depth 145 

导数 derivative 74, 76, 77, 81, 86 

描述 description 70 

设计 和 矩阵 design matrix 93-95, 129 

细致 平衡 detailed balance 607 

探测 级 detector stage 289 

确定 性 deterministic 237 

对 角 和 矩阵 diagonal matrix 36 

Ki differential entropy 67, 551 

微分 方程 differential equation 254 

降 维 dimensionality reduction 405, 428, 447 

Dirac delta 函数 Dirac delta function 59 

Dirac 分 布 dirac distribution 59, 60, 527, 541, 542, 552, 553 
有 向 directed 69 

有 向 图 模型 directed graphical model 330, 333, 417, 461, 479-481, 490, 493, 494, 590, 602 
有 向 模型 Directed Model 480, 481, 484, 487, 489-491, 494, 506, 537, 556, 564, 565, 593 
方向 导数 directional derivative 76, 77 

判别 RBM discriminative RBM 452 

判别 器 网 络 discriminator network 596 


分 布 式 表 示 distributed representation 16, 138, 227, 393-395, 403, 405-407, 409-411, 443, 448, 
458, 465-470, 472, 497, 498 


深度 神经 网 络 DNN 246, 260, 261, 264, 270, 272, 380, 383, 390, 449-452, 470, 565 
领域 自 适 应 domain adaption 456 
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点 积 dot product 30, 35, 123, 124 

双 反 向 传播 double backprop 232, 473 

双重 分 块 循环 矩阵 doubly block circulant matrix 283, 306 
降 采 样 downsampling 292, 297 


Dropout Dropout 207, 221—229, 251, 256, 361, 363, 365, 366, 380, 382, 390, 454, 455, 573, 575, 
587, 599 


Dropout Boosting Dropout Boosting 227, 228 
d- 分 离 d-separation 487, 489 
动态 规划 dynamic programming 187 


动态 结构 dynamic structure 381, 382 


提前 终止 early stopping 211-216, 236, 257, 361, 453, 454 
回声 状态 网 络 echo state network 21, 344-347 

有 效 容量 effective capacity 100 

特征 分 解 eigendecomposition 37-39 

特征 值 eigenvalue 37 

特征 向 量 eigenvector 37 

基本 单位 向 量 elementary basis vectors 484 

元 素 对 应 乘积 element-wise product 30 

HRA. embedding 441, 442 

经 验 分 布 empirical distribution 59, 60, 235, 237, 527 

经 验 频率 empirical frequency 59 

经 验 风险 empirical risk 235 

经 验 风 险 最 小 化 empirical risk minimization 235, 236 


编码 器 encoder 4, 337, 338, 401-403, 420, 423-426, 428-431, 433-439, 441, 442, 444, 446, 450, 
557, 594, 595 





端 到 端的 end-to-end 358, 361, 362, 373, 391, 495 
能 量 函 数 energy function 484, 485, 498, 499, 510, 517, 558-560, 565, 566, 574, 577—582, 585 


基于 能 量 的 模型 Energy-based model 484—486, 498, 505, 506, 509, 510, 512, 513, 558, 560, 565, 
582 


集成 ensemble 196, 219—222, 224—226, 228, 380, 401, 449 


ww ai bt. com D HEB O D DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
686 术语 


集成 学 习 ensemble learning 419 
轮 epoch 241, 373 
轮 数 epochs 212 
等 式 约束 equality constraint 83, 84 
均衡 分 布 Equilibrium Distribution 507, 508 
变 equivariance 285 
等 变 表 示 equivariant representations 284 
误差 条 error bar 103 
误差 函数 error function 74 
误差 度量 error metric 358, 359 
错误 率 error rate 91, 359, 360, 365 
估计 量 estimator 108-115, 196, 455, 467, 519, 522 
欧 几 里 得 范 数 Euclidean norm 34 
欧 拉 - 拉 格 朗 日 方程 Euler-Lagrange Equation 551 
证 据 下 界 evidence lower bound 538, 539, 542, 543, 547, 564 


样本 example 13, 23, 88, 90-95, 97, 99, 100, 102, 106, 107, 109, 110, 112-119, 123-125, 128, 
129, 131-133, 135-138, 141, 209 


额外 误差 excess error 251, 255 

HAS expectation 54, 56 

期 望 最 大 化 expectation maximization 418, 540-543, 594 
E 步 expectation step 540 

期 望 值 expected value 54 

经 验 experience, E 87, 88, 92, 94, 95 

专家 网 络 expert network 382 

相 消 解释 explaining away 537, 549, 564 

相 消 解释 作用 explaining away effect 488 

解释 因子 explanatory factort 462, 470, 472, 473 
梯度 爆炸 exploding gradient 247 

开发 exploitation 408, 409 

探索 exploration 408, 409 


ww ai bt. com D LH BO D DB 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
术语 ant 


484% exponential distribution 58 


因子 factor 481—483, 485, 492, 493, 558, 584 

因子 分 析 factor analysis 417, 419, 425 

因子 图 factor graph 492, 493 

因子 factorial 416, 424, 425, 500, 543, 550, 561, 562, 567, 568 
分 解 factorization 69, 70 

分 解 的 factorized 473 

变 差 因素 factors of variation 4, 6, 173, 469, 471, 472 

快速 Dropout fast dropout 227 

快速 持续 性 对 比 散 度 fast persistent contrastive divergence 523 
可 行 feasible 83, 84, 86 

特征 feature 88, 92-96, 98, 99, 104, 123-125, 128-131 

特征 提取 器 feature extractor 421, 424, 452, 468, 542 

特征 映射 feature map 281, 388 

特征 选择 feature selection 203 

反馈 feedback 145 

前 向 feedforward 145 

前 馈 分 类 器 feedforward classifier 463 


前 馈 网 络 feedforward network 145-150, 156, 168, 169, 171, 173, 193-195, 244, 246, 247, 258, 
275, 318, 320, 329, 333, 336, 343, 346, 360, 361, 428, 431, 433, 434, 436, 448, 449, 463, 
464, 471, 473, 592 


前 馈 神经 网 络 feedforward neural network 145-148, 151, 153, 165, 171, 175, 245, 433 
现场 可 编程 门 阵列 field programmable gated array 383 

精 调 fine-tune 450, 451, 454, 519 

精 调 fine-tuning 274, 275, 424, 564 

有 限 差分 finite difference 372 

第 一 层 first layer 145 

不 动 点 方程 fxed point equation 544, 548, 549, 553, 555, 556, 568, 571 

定点 运算 fixed-point arithmetic 377 


翻转 flip 282 
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浮 点 运算 float-point arithmetic 377 
遗忘 门 forget gate 349-351 
前 向 模式 累加 forward mode accumulation 192 


前 向 传播 forward propagation 175, 182, 183, 256-258, 284, 300, 301, 308, 324, 325, 337, 345, 
348 


傅立叶 变换 Fourier transform 307, 308 
HAE] fovea 312 
自由 能 free energy 486 
频率 派 概率 frequentist probability 49 
频率 派 统 计 frequentist statistics 118 
Frobenius 范 数 Frobenius norm 35, 41, 44, 45 
F 分 数 F-score 360 
全 full 296 

ZH functional 155, 550-554 


泛 函 导数 functional derivative 550—553 


Gabor 函数 Gabor function 313-316 
Gamma 分 布 Gamma distribution 580 
门 控 gated 348-351, 354 
门 控 循 环 网 络 gated recurrent net 361 
门 控 循环 单元 gated recurrent unit 348, 350, 361 
[H2 RNN gated RNN 348, 350 
选 通 器 gater 382 


高 斯 分 布 Gaussian distribution xx, 57, 58, 60, 68, 154, 156, 162, 164, 294, A17, 425, 553, 554, 
577, 579, 580, 586, 587, 594, 599, 601 


斯 核 Gaussian kernel 124, 465 


= 


高 斯 混合 模型 Gaussian Mixture Model 60, 61, 389, 390, 495 
高 斯 混合 体 Gaussian mixtures 465 

高 斯 输出 分 布 Gaussian output distribution 155 

高 斯 RBM Gaussian RBM 578-580 

Gaussian-Bernoulli RBM Gaussian-Bernoulli RBM xiv，577-579 
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通用 GPU general purpose GPU 378 


泛 化 generalization 97, 99, 136, 137, 146-149, 151, 171, 174, 194, 196, 197, 256, 276, 363, 380, 
385, 388, 424, 456—458, 464, 467, 468, 471 


泛 化 误差 generalization error 97, 100-102, 114, 235, 238-240, 249, 251, 256, 258, 260, 361, 
363-366, 424 


泛 化 generalize 256, 456—458, 467—469, 472, 591, 602, 605 

广义 函数 generalized function 59 

广义 Lagrange 函数 generalized Lagrange function 83, 84, 203 

广义 Lagrangian generalized Lagrangian 83, 85 

广义 伪 似 然 generalized pseudolikelihood 524, 525, 575 

广义 伪 似 然 估 计 generalized pseudolikelihood estimator 524 

广义 得 分 匹配 generalized score matching 526, 527 

生成 式 对 抗 框架 generative adversarial framework 464 

生成 式 对 抗 网 络 generative adversarial network 463, 464, 512, 530, 591, 596-600 


生成 模型 generative model 384, 416, 418, 419, 421, 424, 425, 427, 430-432, 439, 452, 463, 464, 
469, 470, 497, 512, 514, 530, 536, 556-558, 563-565, 584, 586, 590, 591, 593, 595, 599, 
610-613 


生成 式 建 模 generative modeling 593, 594, 596, 601, 609-612 
生成 矩 匹配 网 络 generative moment matching network 599, 600 
生成 随机 网 络 generative stochastic network xv, 430, 606-610 
生成 器 网 络 generator network 591-594, 596, 598-600 

吉 布 斯 分 布 Gibbs distribution 483 


Gibbs 采样 Gibbs Sampling 494, 498-500, 509-512, 514, 521, 526, 564, 567, 569, 572, 575, 580, 
581 


吉 布 斯 步 数 Gibbs steps 518, 520, 522, 572 

全 局 对 比 度 归 一 化 Global contrast normalization 386-388 
全 局 极 小 值 global minima 244, 245 

全 局 最 小 点 global minimum 75, 76, 82, 85, 242, 243, 248, 278 


梯度 gradient 76—78, 82, 83, 85, 86, 198-200, 202, 204, 213, 214, 322, 325-329, 342, 343, 345, 
346, 348, 351-357, 437, 438 


梯度 上 升 gradient ascent 547 
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梯度 截断 gradient clipping 245, 247, 257, 353, 354 


梯度 下 降 gradient descent 74, 75, 77-83, 85, 123, 132-134, 204, 205, 214, 221, 236, 237, 241, 
244-246, 248, 250-254, 257, 258, 265, 271-273, 353, 364, 370, 379, 380, 404, 420, 428, 436, 
446, 452, 469, 510, 540, 544, 548, 576, 588, 593 


图 模型 graphical model 69, 330—333, 395, 474, 475, 478, 480, 486, 487, 490, 493-498, 500, 537, 
542, 543, 549, 550, 553, 558, 560, 561, 565, 566, 590, 602 


图 形 处 理 器 Graphics Processing Unit 238, 377-379, 382, 383 

贪心 greedy 450, 451 

贪心 算法 greedy algorithm 274, 450 

贪心 逐 层 预 训 练 greedy layer-wise pretraining 309, 571, 574, 575 
贪心 逐 层 训 练 greedy layer-wise training 571 

贪心 逐 层 无 监督 预 训练 greedy layer-wise unsupervised pretraining 449-451 
贪心 监督 预 训练 greedy supervised pretraining 274, 275 

贪心 无 监督 预 训练 greedy unsupervised pretraining 451, 573 


网 格 搜索 grid search 367-369 


Hadamard 乘积 Hadamard product xix, 30 
汉 明 距离 Hamming distance 527 

硬 专家 混合 体 hard mixture of experts 382 
硬 双 曲 正切 函数 hard tanh 170 

SM harmonium 498, 560 

harmony harmony 485 

哈里 斯 链 Harris Chain 508 

Helmholtz 机 Helmholtz machine 430, 591 


Hessian Hessian xix, 78-82, 199, 200, 202, 203, 214, 238, 241, 243, 245, 247, 252, 265-267, 269, 
270, 278, 351, 452, 453, 574 


AF heteroscedastic 162 


隐藏 层 hidden layer 5, 13, 146-148, 150, 165, 170-172, 184, 188, 190, 195, 223, 270, 271, 274- 
277, 300, 323, 428, 433, 439, 445, 447, 448, 470, 471, 526, 537, 560—570, 572, 579, 590, 
603, 605, 609 


隐 马 尔 可 夫 模 型 Hidden Markov Model 389-391 
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隐藏 单元 hidden unit vi, 5, 15, 16, 20, 21, 148, 154, 156, 165, 166, 168-172, 175, 190, 194, 
205-207, 210, 214, 217, 219, 221-223, 225, 228, 229, 242, 256, 259, 272, 294, 299, 320, 
322-326, 328, 331, 333, 334, 338, 344, 347-349, 351, 362, 364-367, 373, 381, 382, 386, 404, 
420, 433, 436, 444, 445, 465, 468-471, 491, 495, 498, 499, 509, 516, 519, 521, 526, 538, 
540, 542, 545, 546, 549, 559-561, 564—570, 574, 577—581, 583-585, 591, 593, 601, 603-605, 
612 


隐藏 变量 hidden variable 525, 537 

MEL hill climbing 77 

超 参 数 hyperparameter 252, 253, 258, 260-263, 358, 362-370, 374, 454 
超 参 数 优化 hyperparameter optimization 367 


假设 空间 hypothesis space 98 


同 分 布 的 identically distributed 97 

可 辨认 的 identifiable 242 

单位 矩阵 identity matrix xvii, 31 

独立 同 分 布 假设 iid. assumption 97 

病态 ill conditioning 241 

不 道德 immorality 490, 491 

重要 采样 Importance Sampling 399, 400, 503-505, 531—535, 591, 595 
相互 独立 的 independent 53, 97 

独立 成 分 分 析 independent component analysis 417-421 
独立 同 分 布 independent identically distributed 502, 530 
独立 子 空间 分 析 independent subspace analysis 420 

索引 index of matrix 27, 28 

指示 函数 indicator function 58 

不 等 式 约束 inequality constraint 83-85 


推断 inference xiv, 2, 207, 224, 226-228, 392, 393, 414, 430, 431, 496, 541, 558, 559, 564, 
566-570, 572-576, 581, 585, 591-595, 597, 599, 604, 605, 612 


无 限 infinite 455 
信息 检索 information retrieval 447 
内 积 inner product 123 


输入 input 281, 452 
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输入 分 布 input distribution 452, 453, 456 
干预 查询 intervention query 53 
Rae invariant 290 
求 逆 invert 578 
Isomap Isomap 455 


各 向 同性 isotropic 58, 61 


Jacobian Jacobian xix, 77, 78, 176, 178, 180, 183, 185, 186, 232, 277, 328, 342, 344, 345, 372, 
420, 444, 445 


Jacobian 和 矩阵 Jacobian matrix 65, 178, 191, 192 


联合 概率 分 布 joint probability distribution 50, 52, 53, 69, 558-560, 565 


Karush-Kuhn- Tucker Karush-Kuhn- Tucker 83-85, 203, 205 
核 函 数 kernel function 123, 281 

核 机 器 kernel machine 124, 125, 146, 209, 344, 465, 563 

核 方法 kernel method 124 

核 技 巧 kernel trick 123, 124, 133, 146 

KL BRE. KL divergence 116, 218, 538, 544 

知识 库 knowledge base 2, 410, 411 

知识 图 谱 knowledge graph 411 

Krylov 方法 Krylov method 193 

KL BUE Kullback-Leibler (KL) divergence xx, 67, 68 


标签 label 92, 94, 124, 136, 452, 458, 469, 471 

标注 labeled 362, 363, 374, 449, 453, 455, 457, 458, 460, 461 

拉 格 朗 日 乘 子 Lagrange multiplier 551, 552 

语言 模型 language model 354, 391—393, 401, 402, 405, 409, 505 

Laplace 分 布 Laplace distribution 58 

大 学 习 步 又 large learning step 543 

潜在 latent 163, 417, 418, 425, 430, 450, 462, 495, 521, 559, 560, 596, 598, 601, 608 
潜 层 latent layer 560 
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潜 变 量 latent variable xiii, 60, 163, 242, 395, 416-418, 428, 430-432, 434, 451, 461, 465, 471, 
485, 486, 495-498, 500, 511, 513, 516, 520, 526, 537, 538, 540, 541, 543, 544, 547, 553, 
559-561, 563-566, 575, 591, 593-595, 606, 608 


大 数 定理 Law of large number 502 

逐 层 的 layer-wise 450 

L-BFGS L-BFGS 269, 270 

渗 漏 整流 线性 单元 Leaky ReLU 166, 167, 361 

渗 漏 单元 leaky unit 346-348 

学 成 learned 449, 453, 457, 458, 464, 466, 469, 472, 473, 556, 557, 591 
学 习 近 似 推断 learned approximate inference 446 

学 习 器 learner 106, 138, 239, 456, 458, 462, 468, 471, 472 


学 习 率 learning rate 77, 79, 133, 234, 238, 241, 250, 251, 253, 255, 260-263, 265, 267, 270, 361, 
362, 364—367, 371, 522, 523, 572, 588, 590 


勒 贝 格 可 积 Lebesgue-integrable 516 

左 特征 向 量 left eigenvector 37 

左 奇异 向 量 left singular vector 40 

莱 布 尼 效 法 则 Leibniz's rule 516 

似 然 likelihood 49 

线 搜索 line search 77, 83, 268 

线性 自 回 归 网 络 linear auto-regressive network 601 

线性 分 类 器 linear classifier 236, 427, 448, 452, 457, 466, 469 

线性 组 合 linear combination 33 

线性 相关 linear dependence 33 

线性 因子 模型 linear factor model 416, 417, 419, 420, 422, 424, 425, 427, 500, 542, 578 
线性 模型 linear model 14, 197, 202, 203, 205, 214, 227, 230, 559, 601 


线性 回归 linear regression 87, 94, 96-98, 100, 101, 104, 108, 117-119, 121-123, 133, 134, 197, 
199-202, 204, 205, 218, 227, 259, 344, 427, 543, 601 


线性 阀 值 单元 linear threshold units 468, 469 
线性 无 关 linearly independent 33 

链接 预测 link prediction 411 

链接 重要 采样 linked importance sampling 536 
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Lipschitz Lipschitz 82 

Lipschitz 常数 Lipschitz constant 82 

Lipschitz 连续 Lipschitz continuous 82 

流体 状态 机 liquid state machine 344 

局 部 条 件 概 率 分 布 local conditional probability distribution 479 
局 部 不 变性 先 验 local constancy prior 136 

局 部 对 比 度 归 一 化 local contrast normalization 387, 388 
局 部 下 降 local descent 249 

局 部 核 local kernel 137, 465 

局 部 极 大 值 local maxima 127, 244 

局 部 极 大 点 local maximum 74, 75, 79, 80, 243, 548 

局 部 极 小 值 local minima 242-244, 248, 278, 452 

局 部 极 小 点 local minimum 74-76, 79, 80, 82, 212, 213, 236, 242, 243, 248, 254, 452 
对 数 尺度 logarithmic scale 367, 368 


逻辑 回归 logistic regression 2, 6, 123, 146, 153, 155, 177, 197, 205, 230, 309, 361, 366, 396, 529, 
559, 599, 601 


logistic sigmoid logistic sigmoid vi, 61, 62, 122, 157, 159, 168, 171 

分 对 数 logit 63, 158 

对 数 线性 模型 log-linear model 485 

长 短期 记忆 long short-term memory ix, 16, 22, 259, 277, 348-352, 354, 355, 357, 361, 391 
长 期 依赖 long-term dependency 246, 340, 342-344, 346, 347, 350, 354 

XM loop 491, 492 

环 状 信念 传播 loopy belief propagation 497, 498 

损失 loss 91, 116, 132, 527, 575 


损失 函数 loss function 74, 107, 134, 218, 235, 236, 244, 247, 248, 252, 277, 324-326, 354, 364, 
395, 400, 421, 429, 430, 432, 434, 446, 584, 586, 601 


机 器 学 习 machine learning 2, 3, 7, 10, 12-18, 20, 24, 26, 72, 86-95, 97-100, 102, 104, 105, 108, 
112, 113, 118, 119, 123, 126, 132, 134, 135, 138, 139, 141, 196, 203, 205-207, 219-221, 231, 
233-236, 239, 240, 250, 251, 259, 278, 318, 352, 358-363, 370, 371, 373, 376, 377, 379-381, 
400, 406, 407, 409, 410, 428, 439, 442, 448, 452, 457, 472, 473, 475, 485, 489, 495, 497, 
501, 505, 517, 518, 541, 550, 551, 556 


ww ai bt. com OOOOO00 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
术语 695 


机 器 学 习 模 型 machine learning model 451 

机 器 翻译 machine translation 361, 458 

主 对 角 线 main diagonal 29 

流 形 manifold 139, 141, 142, 232, 425, 426, 437-445, 472, 473, 495, 510, 512, 596 

流 形 假设 manifold hypothesis 140 

流 形 学 习 manifold learning 139, 433, 441-443, 596 

边缘 概率 分 布 marginal probability distribution 52 

马尔 可 夫 链 Markov Chain xv, 505-513, 517-523, 526, 533, 565, 568, 570, 572, 606-609 


马尔 可 夫 链 蒙特 卡 罗 Markov Chain Monte Carlo 414, 503, 505, 506, 508, 510, 512, 517-519, 
523, 5277, 533, 562, 568, 574, 605, 608-610 


马尔 可 夫 网 络 Markov network 481, 485, 495, 499 
马尔 可 夫 随 机 场 Markov random field 481, 485 

#845 mask 221-224, 227, 228 

和 矩阵 matrix 28 

ZERE% matrix inversion 31, 32 

和 矩阵 乘积 matrix product 29 

最 大 范 数 max norm 35 

池 pool 290, 292, 293 

最 大 池 化 max pooling 289-292, 300, 468, 601 

MAA maxima 243, 244 

M # maximization step 540, 541 

最 大 后 验 Maximum A Posteriori v, 121, 122, 203, 391, 431, 541-543, 557, 581 
最 大 似 然 maximum likelihood 419, 423, 515, 544, 545 


最 大 似 然 估计 maximum likelihood estimation 115-119, 121, 122, 134, 237, 392, 519, 524, 528, 
542, 544 


最 大 平均 偏差 maximum mean discrepancy 600 

maxout maxout 212, 242, 258, 277, 291, 316, 361 

maxout 单元 maxout unit 167, 172, 316, 364 

平均 绝对 误差 mean absolute error 156 

均值 和 协 方差 RBM mean and covariance RBM 579-582 

FE t 分 布 均值 乘积 mean product of Student t-distribution 579-582 
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均 方 误差 mean squared error 95, 96, 103, 104, 113, 116-118, 120, 129, 148, 154-156, 158, 194, 
344, 421, 429, 434, 436, 463, 464, 589, 594, 607 


均值 - 协 方差 RBM mean-covariance restricted Boltzmann machine 485 
均匀 场 meanfield 21, 567—569, 571-573, 575, 576, 583, 591, 595, 604 
151835 mean-field 543-550, 553, 556, 557 

测度 论 measure theory 64 

零 测 度 measure zero 64 

记忆 网 络 memory network 355, 357, 411 

信息 传输 message passing 550 


小 批量 minibatch vii, 132, 183, 188, 190, 220-222, 236-240, 247, 250-253, 255, 258, 260-264, 
269, 271, 319, 352, 353, 373, 379, 382, 428, 435, 452, 501, 508, 518, 520, 522, 540, 572, 576 


小 批量 随机 minibatch stochastic 238 

极 小 值 minima 244, 248 

极 小 点 minimum 249, 250, 552 

混合 Mixing 510-514, 520-523 

混合 时 间 Mixing Time 508, 509 

混合 密度 网 络 mixture density network 163 


3E 
D: 


分 布 mixture distribution 59 


混合 体 mixture of experts 382, 465 


峰值 mode xiii, 510—514, 519, 521—523, 550 

模型 model 451 

模型 平均 model averaging 219—221 

模型 压缩 model compression 380 

模型 可 辨识 性 model identifiability 242 

模型 并 行 model parallelism 379 

$E moment 599, 600, 610 

和 矩 匹 配 moment matching 599, 610 

动量 momentum 252-255, 260, 262, 263, 276, 361 

蒙特 卡 罗 Monte Carlo 226, 399, 501-503, 505, 514, 517, 523, 531, 556, 580, 588, 594 


Moore-Penrose 1/36 Moore-Penrose pseudoinverse xix, 41, 99, 105 
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道德 化 moralization 490, 491 

道德 图 moralized graph 490, 491 


多 层 感知 机 multilayer perceptron 5, 20, 21, 145, 187-189, 194, 274, 2775, 297, 339, 340, 402, 439, 
470, 559, 564, 565, 567, 568, 573, 574, 585 


多 峰值 multimodal 532, 549, 610 

多 模 态 学 习 multimodal learning 459 

多 项 式 分 布 multinomial distribution 56 

Multinoulli 分 布 multinoulli distribution 56, 59, 60, 73, 159, 163 

多 预测 深度 玻 尔 兹 曼 机 multi-prediction deep Boltzmann machine 574-576, 595, 606 
多 任务 学 习 multitask learning 209, 210, 456, 457 

多 维 正 态 分 布 multivariate normal distribution 58, 417, 511 


朴素 贝 叶 斯 naive Bayes 2 

奈 特 nats 66 

自然 语言 处 理 Natural Language Processing 245, 362, 376, 391, 394, 395, 405, 406, 409, 454 
最 近邻 nearest neighbor 137, 449, 465-467 

最 近邻 图 nearest neighbor graph 442 

最 近邻 回归 nearest neighbor regression 101, 125 

XE negative definite 38 

负 部 函数 negative part function 63 

负 相 negative phase 516-519, 521—523, 525, 526, 556, 560, 570, 571 

3ÉÍAXE negative semidefinite 38 

Nesterov 动量 Nesterov momentum 255 

网 络 network 145 

神经 自 回归 密度 估计 器 neural auto-regressive density estimator xiv, 601, 603-605 
神经 自 回 归 网 络 neural auto-regressive network 602-605 

神经 语言 模型 Neural Language Model 393, 395, 396, 398, 400, 401, 405, 410 
神经 机 器 翻译 Neural Machine Translation 394 





神经 网 络 neural network 12-17, 19-23, 196-198, 204-206, 214, 217, 220, 221, 223, 224, 228-231, 
233, 234, 240—249, 256, 257, 260, 261, 265, 266, 268, 269, 272-274, 276-279, 318, 340, 348, 
355, 357, 376-378, 383, 386, 389—391, 394, 395, 400, 401, 404, 405, 407, 410, 428, 443, 446, 
451—454, 465, 469, 505, 555, 586 
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神经 网 络 图 灵机 neural Turing machine 355, 356 

牛顿 法 Newton's method 81, 82, 85, 241, 242, 244, 249, 265-267, 269, 273 
n-gram n-gram 392, 393, 395, 396, 400—402, 466, 477 

没有 免费 午餐 定理 no free lunch theorem 102, 105, 471 

噪声 noise 101, 140, 238, 247, 252, 278, 361, 362, 452, 527-530 

噪声 分 布 noise distribution 528—530 

噪声 对 比 估计 noise-contrastive estimation 528—530 

非 凸 nonconvex 240, 242-245, 261, 265, 274, 278 

非 分 布 式 nondistributed 466-468 

非 分 布 式 表 示 nondistributed representation 465-467 

非 线 性 共 力 梯度 nonlinear conjugate gradients 268, 269 

非 线性 独立 成 分 估计 nonlinear independent components estimation 419, 420 
非 参 数 non-parametric 100, 393, 441—443 

范 数 norm 34 

正 态 分 布 normal distribution 57, 58, 61, 503, 552 

正规 方程 normal equation 96, 98, 99, 133, 148 

归 一 化 的 normalized 51 

标准 初始 化 normalized initialization 257 

数值 numeric value 182 


数值 优化 _numerical optimization 234, 241, 245 


对 象 识别 object recognition 245, 361, 363, 384, 388, 389, 422, 424, 458, 611 
目标 objective 454 


目标 函数 objective function 74, 77, 84, 196-201, 203, 204, 212, 213, 216, 220, 235-237, 240, 
245-247, 249, 251, 252, 264—266, 268, 273, 277, 278, 352, 358, 367, 373, 449, 469, 524, 526, 
563, 571 

奥 卡 姆 剃刀 Occam's razor 100 

one-hot one-hot 125, 131, 161, 193, 393, 394, 453, 454, 458, 465, 467, 585, 602 

一 次 学 习 one-shot learning 458 

在 线 online 237 


在 线 学 习 online learning 239 
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操作 operation 176 

最 佳 容量 optimal capacity 101, 103, 114 
原点 origin 33 

正 交 orthogonal 36 

正 交 和 矩阵 orthogonal matrix 37 
标准 正 交 orthonormal 36, 39 

输出 output 452 

输出 层 output layer 145 

过 完备 overcomplete 430, 433, 581, 582 


过 估计 overestimation 505 


WHA overfitting 98, 99, 105, 114, 196, 197, 214, 236, 240, 251, 257, 358, 362, 364, 365, 371, 
374, 380, 449, 453, 454, 477, 612 


过 拟 合 机 制 overfitting regime 101 


iit overflow 72, 73, 534 


并 行 分 布 式 处 理 Parallel Distributed Processing 194 
并 行 回 火 parallel tempering 513, 523, 536 

参数 parameter 94 

参数 服务 器 parameter server 380 


参数 共享 parameter sharing 217, 223, 224, 228, 284, 285, 287, 299, 312, 318, 319, 321, 322, 331, 
332, 401, 600, 601, 603 


有 参 情况 parametric case 118 
参数 化 整流 线性 单元 parametric ReLU 167, 361 
导数 partial derivative 76, 77, 444, 550 


配 分 函数 Partition Function 414, 483, 485, 501, 505, 514, 515, 517, 518, 523, 524, 526-528, 
530-536, 556, 558-560, 563, 564, 570, 577, 582, 583, 597 


性 能 度量 performance measures 87, 88, 91, 95, 360, 361 

性 能 度量 performance metrics 358, 359, 361, 369, 371, 373, 374 

置换 不 变性 permutation invariant 295 

持续 性 对 比 散 度 persistent contrastive divergence 520, 522, 563, 571, 574, 580, 581 
音素 phoneme 389-391, 456 


ww ai bbc. com rH BEL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
700 术语 


语音 phonetic 391 

分 段 piecewise 361 

点 估计 point estimator 108 

策略 policy 408, 409 

策略 梯度 policy gradient 382 

池 化 pooling 206, 228, 280, 286, 289-294, 298, 305, 308, 309, 311, 312, 385, 420 
池 化 函数 pooling function 289 

病态 条 件 poor conditioning 74, 81, 238, 241, 245, 247, 249, 252, 453 
IEXE positive definite 38 

正 部 函数 positive part function 63 

正 相 positive phase 516—519, 522, 523, 556, 559, 570 

半 正 定 positive semidefinite 38 

后 验 概率 posterior probability 60 

PHA power method 247 

PR 曲线 PR curve 360 

精度 precision 57, 360, 372, 611 

精度 矩阵 precision matrix 58 

FRM LAK predictive sparse decomposition 446 

预 训练 pretraining 274-277, 390, 424, 450-455, 497, 520, 526 

初级 视觉 皮层 primary visual cortex 310 


主 成 分 分 析 principal components analysis xi, 42-44, 128-130, 134, 209, 234, 301, 387, 417-419, 
421, 423, 425-427, 429, 440, 445, 447 


先 验 概率 prior probability 60 

先 验 概率 分 布 prior probability distribution 118, 294 

概率 PCA probabilistic PCA 417-419, 425, 537, 538 

概率 密度 函数 probability density function 51, 57-59, 64, 502, 550-552, 597 

概率 分 布 probability distribution 47, 49-56, 58-61, 65-67, 69, 70, 359, 471, 515, 528, 530 
概率 质量 函数 probability mass function 50, 51, 90, 559, 570 

专家 之 积 product of expert 485 

乘法 法 则 product rule 53 
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成 比例 proportional 70 
提议 分 布 proposal distribution 399, 531, 533-535 
伪 似 然 pseudolikelihood 523-529, 570 


象限 对 quadrature pair 315 


量子 力学 quantum mechanics 48 


ZBA% radial basis function 124, 146, 169, 470 

随机 搜索 random search 368-370 

随机 变量 random variable 49-56, 58-60, 64, 65, 67, 69, 70, 471, 524, 529, 533 
值 域 range 33 

比率 匹配 ratio matching 526, 527, 563 

召回 率 recall 360, 381, 611 

接受 域 receptive field 286, 294 

再 循环 recirculation 428 

推荐 系统 recommender system 406—408 

重 构 reconstruction 428, 429, 435-438, 440, 441, 444-446, 607, 608 


重 构 误差 reconstruction error 418, 421, 425, 426, 430, 432, 436, 437, 439, 444, 445, 447, 453, 
513, 607 


整流 线性 rectified linear 151, 167, 229, 242, 272, 289 
整流 线性 变换 rectified linear transformation 152 


整流 线性 单元 rectified linear unit 14, 15, 150, 151, 165-172, 177, 194, 195, 232, 277, 361, 374, 
390, 432, 454 


整流 网 络 rectifier network 172, 173, 195 
循环 recurrence 449 
循环 卷 积 网 络 recurrent convolutional network 306 


循环 网 络 recurrent network 145, 245—247, 306, 318-323, 325, 329, 332, 337, 340, 342-346, 348, 
349, 352, 353, 356, 411, 416, 439, 473, 549, 575, 576 


循环 神经 网 络 recurrent neural network ix, 21, 22, 144, 145, 207, 227, 246, 305, 317-324, 327, 
329-340, 342-344, 347, 348, 351, 354, 357, 391, 402, 549, 584, 585, 595 


回归 regression 103 


正则 化 regularization 104, 105, 118, 122, 196-205, 207, 208, 211-219, 221, 226-235, 257, 354, 
358, 361, 363-365, 386-388, 420, 430, 431, 433, 437, 439, 445, 452, 454, 471 
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正则 化 regularize 238, 364, 420, 454, 455, 513, 527, 574, 583, 587 

正则 化 项 regularizer 104, 122, 126, 134, 361, 451, 453, 454, 466 

强化 学 习 reinforcement learning 23, 93, 231, 382, 408, 409, 457, 556, 587, 589 
关系 relation 409-411 

关系 型 数据 库 relational database 410 

重 参数 化 reparametrization 574, 587 

重 参数 化 技巧 reparametrization trick 587, 593, 609 


表示 representation 2-7, 16, 209, 218, 219, 296, 356, 366, 393, 394, 402, 403, 410, 429, 430, 432, 
439-441, 447 


表示 学 习 representation learning 4, 402, 416, 418, 447-449, 451, 456, 457, 460-462, 465, 471- 
473, 500, 513 


表示 容量 representational capacity 100 
储 层 计 算 reservoir computing 344 


受 限 玻 尔 效 曼 机 Restricted Boltzmann Machine 227, 300, 390, 407, 436, 437, 447, 449, 471, 489, 
498—500, 509, 513, 514, 516, 518-522, 532, 535-537, 560-567, 570, 571, 573, 574, 577, 578, 
580, 582, 584, 585, 590, 599, 604, 608, 609 


反 向 相关 reverse correlation 313 

反 向 模式 累加 reverse mode accumulation 191 
岭 回 归 ridge regression 198 

右 特征 向 量 right eigenvector 37 

右 奇 异 向 量 right singular vector 40 

风险 risk 235 


行 row 28 


扫 视 saccade 312 

鞍点 saddle point 75, 76, 79, 80, 82, 243-245, 247, 248, 265, 266 
无 鞍 牛 顿 法 saddle-free Newton method 244 

相同 same 296, 297 

样本 均值 sample mean 110 

样本 方差 sample variance 110, 111 

饱和 saturate 61 


标量 scalar 27 


wwaibbt.com rH B BL BL B DB] 


仅 供 学 习 使 用 ， 不 得 用 于 商业 目的 。https://github .com/exacity/deeplearningbook-chinese 
术语 i 


得 分 score 436-439, 525, 526 

得 分 匹配 score matching 436, 437, 444, 525—529, 605 

二 阶 导 数 second derivative 77-80 

二 阶 导数 测试 second derivative test 80 

第 二 层 second layer 145 

二 阶 方法 second-order method 244 

自 对 比 估 计 self-contrastive estimation 530 

自信 息 self-information 66 

语义 哈 希 semantic hashing 447 

半 受 限 波 尔 兹 曼 机 semi-restricted Boltzmann Machine 538 
半 监 督 semi-supervised 362, 414 

半 监 督学 习 semi-supervised learning 208, 209, 230, 449, 451, 453, 461, 462, 472 
可 分 离 的 separable 308, 448, 452 

分 离 的 separate 472 

分 离 separation 486, 487, 494 

情景 setting 457, 458, 468, 470 

浅 度 回 路 shadow circuit 471 

TK Shannon entropy xx, 66, 67 

香农 shannons 66 

塑造 shaping 278, 559, 610 

短 列 表 shortlist 395, 396 

sigmoid sigmoid 157—161, 168, 194, 277, 361, 424, 510 
sigmoid 信念 网 络 sigmoid Belief Network 590, 591 
简单 细胞 simple cell 310 

奇异 的 singular 34 

奇异 值 singular value 39, 40 

奇异 值 分 解 singular value decomposition 39-41, 130, 407 
奇异 向 量 singular vector 39 

跳跃 连接 skip connection 339, 340, 346, 347 

慢 特 征 分 析 slow feature analysis 420-422, 473 
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慢性 原则 slowness principle 420-422 

平滑 smoothing 393 

平滑 先 验 smoothness prior 136 

softmax softmax 448 

softmax 函数 softmax function 72, 73, 208, 225, 226, 324, 327, 371, 374, 382 
softmax 单元 softmax unit 374 

softplus softplus 169 

softplus 函数 softplus function 61-63, 158, 169 
生成 子 空间 span 33 

稀疏 sparse 202, 203, 217-219, 226, 430-433, 439 
稀疏 激活 sparse activation 195 


稀疏 编码 sparse coding 273, 422-425, 431, 439, 446, 450, 489, 491, 495, 500, 526, 537, 542, 543, 
550, 557, 581, 582, 590 


FAVE sparse connectivity 284—286 

稀疏 初始 化 sparse initialization 258 

稀疏 交互 sparse interactions 284 

FALE sparse weights 284 

E+E spectral radius 344-346 

语音 识别 Speech Recognition 361, 376, 380, 389—391, 456 
sphering sphering 387 

尖峰 和 平板 spike and slab 316, 424, 425 

尖峰 和 平板 RBM spike and slab RBM 579-582 

虚假 模 态 spurious modes 519, 521 

方 阵 square 34 

标准 差 standard deviation 54, 112, 237, 271, 272, 385-388 
标准 差 standard error 57, 111, 112, 237 

标准 正 态 分 布 standard normal distribution 57 

声明 statement 47, 48 

平稳 的 stationary 332 

平稳 分 布 Stationary Distribution 507—509, 511 
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IA stationary point 74, 84 

统计 效率 statistic efficiency 118 
统计 学 习 理 论 statistical learning theory 97 
统计 量 statistics 108 

最 陡 下 降 steepest descent 246 

随机 stochastic 237, 238 

随机 课程 stochastic curriculum 279 

随机 梯度 上 升 Stochastic Gradient Ascent 540 


随机 梯度 下 降 stochastic gradient descent 14, 87, 132, 133, 204, 205, 215, 227, 237-241, 245, 
250—253, 255, 257, 269, 276, 343, 352, 353, 355, 361, 379, 436, 505, 517, 573, 574, 588, 605 


随机 和 矩阵 Stochastic Matrix 507 


随机 最 大 似 然 stochastic maximum likelihood 520—523, 525, 527, 528, 563, 564, 567, 570-573, 
575 


流 stream 239 

步 幅 stride 286, 290, 292, 293, 296, 297, 300, 301, 305 

结构 学 习 structure learning 495, 497 

结构 化 概率 模型 structured probabilistic model 47, 69, 70, 471, 474, 476, 478-481, 494, 497, 558 
结构 化 变 分 推断 structured variational inference 543 

亚 原子 subatomic 48 

子 采 样 subsample 501 

求 和 法 则 sum rule 52 

和 - 积 网 络 sum-product network 471 

监督 supervised 92, 209, 210, 217, 230, 235, 309, 310, 316, 378, 424, 439, 448—452, 454, 556, 583 


监督 学 习 supervised learning xxi, 87, 92-94, 101, 107, 116, 122, 123, 125, 126, 134, 140, 144, 
209, 231, 235, 341, 361, 396, 406, 408, 409, 414, 431, 448, 449, 451, 452, 454-457, 461, 
462, 471, 528, 593 


监督 学 习 算法 supervised learning algorithm 92 
监督 模型 supervised model 452 

监督 预 训练 supervised pretraining 455 

支持 向 量 support vector 124, 465 


代理 损失 函数 surrogate loss function 236, 247 
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符号 symbol 181 
符号 表示 symbolic representation 181, 465, 467 


对 称 symmetric 36 


切面 距离 tangent distance 231 

切 平面 tangent plane 439, 442, 445 

正切 传播 tangent prop 231-233 

目标 target 92-95, 101, 102, 105, 108, 116, 122, 128, 134, 135, 137, 138, 141 

泰勒 taylor 79, 81, 202, 214, 241 

导师 驱动 过 程 teacher forcing 326, 327 

温度 temperature 513 

回 火 转移 tempered transition 513 

回 火 tempering 513 

张 量 tensor 28 

测试 误差 test error 97, 98, 101, 103, 240, 362, 364, 365, 370, 371, 374, 451, 453, 454 
测试 集 test set 91, 95, 97, 98, 106, 107, 112, 234, 236, 251, 276, 362, 363, 365, 371, 374, 453 
碰撞 情况 the collider case 488 

绑 定 的 权重 tied weights 284 

Tikhonov 正则 Tikhonov regularization 198 

平 铺 卷 积 tiled convolution 299, 300, 302, 304 

时 延 神经 网 络 time delay neural network 313, 318, 390 


时 间 步 time step 167, 246, 247, 264, 318-334, 338-340, 342, 345, 347—349, 351—353, 356, 391, 
403, 404, 422, 576, 584, 604, 608, 609 


Toeplitz 矩阵 Toeplitz matrix 283 

标记 token 391, 392, 410 

容 差 tolerance 85, 548 

地 质 ICA topographic ICA 420 

训练 误差 training error 97, 98, 100-103, 235, 240, 363-365, 371, 374, 453 


训练 集 training set 97, 98, 234—240, 242, 248, 250, 251, 253, 255, 259, 261-264, 266, 268, 273, 
276, 279, 359, 361-363, 365, 366, 371, 372, 374, 461, 463, 467 


转录 transcribe 89, 91, 94 
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转录 系统 transcription system 358, 360, 371, 373, 374 
迁移 学 习 transfer learning 453, 455-460, 603 

转移 transition 321 

转 置 transpose 29 

三 角 不 等 式 triangle inequality 34 

三 角形 化 triangulate 492 

三 角形 化 图 triangulated graph 492 


三 元 语法 trigram 392 


无 偏 unbiased 109, 239, 240, 250, 502-504, 527 
无 偏 样本 方差 unbiased sample variance 111 
REE undercomplete 429, 430 

欠 定 的 underdetermined 551 

欠 估 计 underestimation 505 

欠 拟 合 underfitting 98, 99, 105, 114, 196-198, 240, 294, 358, 364, 365, 371, 372, 374, 597, 612 
欠 拟 合 机 制 underfitting regime 101 

"hài underflow 72, 73 

潜在 underlying 235, 236, 461-465, 469-473 
潜在 成 因 underlying cause 460, 462, 472 

无 向 undirected 69 


无 向 模型 undirected Model 481—487, 489-492, 494, 499, 501, 509, 514—517, 537, 556, 563, 564, 
590 


展开 图 unfolded graph 321, 322, 325, 391 

展开 unfolding 319-321, 339, 391 

均匀 分 布 uniform distribution 51, 52, 55, 67, 164, 455 
一 元 语法 unigram 392, 399 

单 峰值 unimodal 513, 555 

单元 unit 146 

单位 范 数 unit norm 36, 43 

单位 向 量 unit vector 36 


万 能 近似 定理 universal approximation theorem 171, 433 
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万 能 近似 器 universal approximator 60, 470, 471, 559 

万 能 

未 标注 unlabeled 449, 453, 454, 458, 460, 462, 471 


um 
函数 近似 器 universal function approximator 151 

未 归 一 化 概率 函数 unnormalized probability function 482, 483, 485, 492 
非 共 享 卷 积 unshared convolution 298 


无 监督 unsupervised 20, 21, 92, 209, 217, 227, 362, 390, 414, 422, 424, 439, 446, 448-452, 454, 
457, 458, 461, 462 


无 监督 学 习 unsupervised learning 87, 92-94, 107, 128, 134, 206, 209, 210, 233, 235, 362, 390, 
414, 431, 442, 449-454, 456, 457, 461-463, 528, 609 


无 监督 学 习 算法 unsupervised learning algorithm 92 


无 监督 预 训练 unsupervised pretraining 449, 451-456 


有 效 valid 283, 296, 297 

验证 集 validation set 106, 236, 241, 258, 367—369, 454 

梯度 消失 与 爆炸 问题 vanishing and exploding gradient problem 246, 247, 258 
梯度 消失 vanishing gradient 247 

Vapnik-Chervonenkis 维度 Vapnik-Chervonenkis dimension 100, 466, 469 
变量 消去 variable elimination 546 

方差 variance 54, 56, 57, 111, 196-198, 201, 205, 219 

方差 减 小 variance reduction 588, 589 

变 分 自 编码 器 variational auto-encoder 195, 430, 505, 557, 591, 593-596, 599, 605 
变 分 导数 variational derivative 550 

变 分 自由 能 variational free energy 538 

变 分 推断 variational inference 496, 498, 525 

去 品 denoise 128, 385 

向 量 vector 27 

虚拟 对 抗 样本 virtual adversarial example 230 

虚拟 对 抗 训练 virtual adversarial training 451 

可 见 层 visible layer 5 

V- 结 构 V-structure 488, 538 


BEAR wake sleep 556, 564, 591 
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warp warp 378, 379, 382 

支持 向 量 机 support vector machine 123-125, 153, 309, 366, 521 
无 向 图 模型 undirected graphical model 515, 530 

权重 weight 94 


权重 衰减 weight decay 104-106, 198-201, 204, 205, 208, 212, 214, 216, 217, 226, 227, 242, 257, 
273, 363-366, 431, 453, 523, 543 


权重 比例 推断 规则 weight scaling inference rule 225-228 
权重 空间 对 称 性 weight space symmetry 242 

条 件 概率 分 布 conditional probability distribution 533 
白化 whitening 387 

宽度 width 146 

赢 者 通 吃 winner-take-all 161 

正切 传播 tangent propagation 473 

流 形 正切 分 类 器 manifold tangent classifier 473 

词 能 入 word embedding 362, 394, 403, 405, 407, 453, 458 


词义 消 歧 word-sense disambiguation 411 


零 数据 学 习 zero-data learning 458, 460 


零 次 学 习 zero-shot learning 458-460 
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